Малая языковая модель

Малая языковая модель (МЯМ; англ. Small Language Model, SLM) — нейронная языковая модель, созданная для обработки, понимания и генерации естественного языка. Главное её отличие от большой языковой модели (БЯМ, LLM) состоит в меньшем количестве параметров и более узкой сфере применения.^[1]

Малыми называют языковые модели с количеством параметров в диапазоне от нескольких миллионов до десятков миллиардов, в то время как для больших языковых моделей характерно иметь несколько сотен миллиардов параметров.^[2] Такое сравнительно небольшое количество параметров позволяет быстрее и проще обучать их, а также запускать модели на пользовательских устройствах: компьютерах, ноутбуках и т. д.

Обучение

Малые языковые модели обучаются с использованием как традиционных подходов, применяемых для больших языковых моделей, так и специализированных техник, направленных на достижение высокой производительности при меньшем размере модели.^[1]

Методы и этапы

Дистилляция знаний (knowledge distillation)^[англ.] — это способ обучения в первую очередь нейросетевых моделей машинного обучения, направленный на передачу знаний от модели-учителя к модели-ученику.^[3]
Квантование (Quantization) — метод сжатия модели, который преобразует веса и активации в LLM путем уменьшения битности вычислений.^[4]
Обрезка (Pruning)^[англ.] — практика удаления параметров из существующей искусственной нейронной сети.
Дообучение (Fine-tuning) — практика модификации существующей предварительно обученной языковой модели путём её обучения конкретной задаче (например, анализ настроений).

Список популярных моделей

Имя модели	Кол-во параметров	Компания-разработчик
Phi-3 Mini	3,8 млрд	Microsoft
Phi-3 Small	7 млрд	Microsoft
Phi-3 Medium	14 млрд	Microsoft
Mistral 7B	7,3 млрд	Mistral AI
GPT-4o mini	8 млрд	OpenAI
Gemma 2 2B	2 млрд	Google DeepMind
Gemma 7B	7 млрд	Google DeepMind
RecurrentGemma 2B	2,68 млрд	Google DeepMind
LLaMA 3.2 3b	3 млрд	Meta AI
Llama 3 8B	8 млрд	Meta AI
OpenELM	270 млн, 450 млн, 1,1 млрд, 3 млрд	Apple
Qwen1.5	0,5 млрд, 1,8 млрд, 4 млрд, 7 млрд	Alibaba Cloud

Примечания

↑ ¹ ² What are Small Language Models (SLM)? | IBM (англ.). www.ibm.com (31 октября 2024). Дата обращения: 27 сентября 2025.
↑ Small Language Models (SLM): A Comprehensive Overview . huggingface.co (25 февраля 2025). Дата обращения: 27 сентября 2025.
↑ Яндекс Образование. Дистилляция знаний. (рус.) education.yandex.ru. Дата обращения: 27 сентября 2025.
↑ Motoroller_love. Сравнение различных схем квантования для LLM (англ.). Хабр (4 марта 2024). Дата обращения: 27 сентября 2025.

[:0-1] ¹ ² What are Small Language Models (SLM)? | IBM (англ.). www.ibm.com (31 октября 2024). Дата обращения: 27 сентября 2025.

[2] Small Language Models (SLM): A Comprehensive Overview . huggingface.co (25 февраля 2025). Дата обращения: 27 сентября 2025.

[3] Яндекс Образование. Дистилляция знаний. (рус.) education.yandex.ru. Дата обращения: 27 сентября 2025.

[4] Motoroller_love. Сравнение различных схем квантования для LLM (англ.). Хабр (4 марта 2024). Дата обращения: 27 сентября 2025.

[1]

[2]

[3]

[4]