Малая языковая модель
Малая языковая модель (МЯМ; англ. Small Language Model, SLM) — нейронная языковая модель, созданная для обработки, понимания и генерации естественного языка. Главное её отличие от большой языковой модели (БЯМ, LLM) состоит в меньшем количестве параметров и более узкой сфере применения.[1]
Малыми называют языковые модели с количеством параметров в диапазоне от нескольких миллионов до десятков миллиардов, в то время как для больших языковых моделей характерно иметь несколько сотен миллиардов параметров.[2] Такое сравнительно небольшое количество параметров позволяет быстрее и проще обучать их, а также запускать модели на пользовательских устройствах: компьютерах, ноутбуках и т. д.
Обучение
Малые языковые модели обучаются с использованием как традиционных подходов, применяемых для больших языковых моделей, так и специализированных техник, направленных на достижение высокой производительности при меньшем размере модели.[1]
Методы и этапы
- Дистилляция знаний (knowledge distillation)[англ.] — это способ обучения в первую очередь нейросетевых моделей машинного обучения, направленный на передачу знаний от модели-учителя к модели-ученику.[3]
- Квантование (Quantization) — метод сжатия модели, который преобразует веса и активации в LLM путем уменьшения битности вычислений.[4]
- Обрезка (Pruning)[англ.] — практика удаления параметров из существующей искусственной нейронной сети.
- Дообучение (Fine-tuning) — практика модификации существующей предварительно обученной языковой модели путём её обучения конкретной задаче (например, анализ настроений).
Список популярных моделей
| Имя модели | Кол-во параметров | Компания-разработчик |
|---|---|---|
| Phi-3 Mini | 3,8 млрд | Microsoft |
| Phi-3 Small | 7 млрд | Microsoft |
| Phi-3 Medium | 14 млрд | Microsoft |
| Mistral 7B | 7,3 млрд | Mistral AI |
| GPT-4o mini | 8 млрд | OpenAI |
| Gemma 2 2B | 2 млрд | Google DeepMind |
| Gemma 7B | 7 млрд | Google DeepMind |
| RecurrentGemma 2B | 2,68 млрд | Google DeepMind |
| LLaMA 3.2 3b | 3 млрд | Meta AI |
| Llama 3 8B | 8 млрд | Meta AI |
| OpenELM | 270 млн, 450 млн, 1,1 млрд, 3 млрд | Apple |
| Qwen1.5 | 0,5 млрд, 1,8 млрд, 4 млрд, 7 млрд | Alibaba Cloud |
Примечания
- ↑ 1 2 What are Small Language Models (SLM)? | IBM (англ.). www.ibm.com (31 октября 2024). Дата обращения: 27 сентября 2025.
- ↑ Small Language Models (SLM): A Comprehensive Overview. huggingface.co (25 февраля 2025). Дата обращения: 27 сентября 2025.
- ↑ Яндекс Образование. Дистилляция знаний. education.yandex.ru. Дата обращения: 27 сентября 2025.
- ↑ Motoroller_love. Сравнение различных схем квантования для LLM (англ.). Хабр (4 марта 2024). Дата обращения: 27 сентября 2025.