Малая языковая модель

Малая языковая модель (МЯМ; англ. Small Language Model, SLM) — нейронная языковая модель, созданная для обработки, понимания и генерации естественного языка. Главное её отличие от большой языковой модели (БЯМ, LLM) состоит в меньшем количестве параметров и более узкой сфере применения.[1]

Малыми называют языковые модели с количеством параметров в диапазоне от нескольких миллионов до десятков миллиардов, в то время как для больших языковых моделей характерно иметь несколько сотен миллиардов параметров.[2] Такое сравнительно небольшое количество параметров позволяет быстрее и проще обучать их, а также запускать модели на пользовательских устройствах: компьютерах, ноутбуках и т. д.

Обучение

Малые языковые модели обучаются с использованием как традиционных подходов, применяемых для больших языковых моделей, так и специализированных техник, направленных на достижение высокой производительности при меньшем размере модели.[1]

Методы и этапы

  • Дистилляция знаний (knowledge distillation)[англ.] — это способ обучения в первую очередь нейросетевых моделей машинного обучения, направленный на передачу знаний от модели-учителя к модели-ученику.[3]
  • Квантование (Quantization) — метод сжатия модели, который преобразует веса и активации в LLM путем уменьшения битности вычислений.[4]
  • Обрезка (Pruning)[англ.] — практика удаления параметров из существующей искусственной нейронной сети.
  • Дообучение (Fine-tuning) — практика модификации существующей предварительно обученной языковой модели путём её обучения конкретной задаче (например, анализ настроений).

Список популярных моделей

Имя модели Кол-во параметров Компания-разработчик
Phi-3 Mini 3,8 млрд Microsoft
Phi-3 Small 7 млрд Microsoft
Phi-3 Medium 14 млрд Microsoft
Mistral 7B 7,3 млрд Mistral AI
GPT-4o mini 8 млрд OpenAI
Gemma 2 2B 2 млрд Google DeepMind
Gemma 7B 7 млрд Google DeepMind
RecurrentGemma 2B 2,68 млрд Google DeepMind
LLaMA 3.2 3b 3 млрд Meta AI
Llama 3 8B 8 млрд Meta AI
OpenELM 270 млн, 450 млн, 1,1 млрд, 3 млрд Apple
Qwen1.5 0,5 млрд, 1,8 млрд, 4 млрд, 7 млрд Alibaba Cloud

Примечания

  1. 1 2 What are Small Language Models (SLM)? | IBM (англ.). www.ibm.com (31 октября 2024). Дата обращения: 27 сентября 2025.
  2. Small Language Models (SLM): A Comprehensive Overview. huggingface.co (25 февраля 2025). Дата обращения: 27 сентября 2025.
  3. Яндекс Образование. Дистилляция знаний. education.yandex.ru. Дата обращения: 27 сентября 2025.
  4. Motoroller_love. Сравнение различных схем квантования для LLM (англ.). Хабр (4 марта 2024). Дата обращения: 27 сентября 2025.