December 21, 2025

Малые языковые модели

Что такое SLM?

Малая языковая модель — это нейросеть на базе архитектуры Transformer, имеющая значительно меньше параметров (от миллионов до нескольких миллиардов) в отличие от большой языковой модели (LLM).

Ключевое отличие — SLM жертвует широтой обобщения ради эффективности.

Преимущества — быстрая работа (низкая задержка), меньшее потребление памяти и возможность развертывания на пограничных (edge) устройствах.

Технологии создания SLM

Модели создаются с помощью трех основных методов сжатия:

  • Квантование (Quantization) — уменьшение количества бит, используемых для хранения значений весов (например, переход с 32-бит на 8-бит), что делает модель легче без существенной потери точности.
  • Прунинг (Pruning) — удаление «лишних» нейронов или параметров, которые мало влияют на предсказания.
  • Дистилляция (Distillation) — процесс, при котором большая «модель-учитель» передает свои знания меньшей «модели-ученику».

Сравнение SLM и LLM

+--------------------+------------------------+-------------------+
| Характеристика     | SLM                    | LLM               |
+--------------------+------------------------+-------------------+
| Параметры          | Миллионы               | Миллиарды         |
| Память (VRAM)      | Минимальная            | Значительная      |
| Задержка           | Ультра-низкая          | Заметно выше      |
| Точность           | Умеренная              | Высокая           |
| Стоимость обучения | Доступная              | Высокая           |
| Применение         | Мобильные/edge задачи  | Облачные системы  |
+--------------------+------------------------+-------------------+

Стратегии использования в ИИ-агентах

Предлагается 4 стратегии для эффективной работы:

  1. Интеллектуальная маршрутизация: простые задачи (поддержка, извлечение данных) направляются в SLM, сложные — в LLM.
  2. Сотрудничество в конвейере: SLM делает черновик или фильтрует данные, а LLM завершает работу (например, проверяет галлюцинации).
  3. Параллельная верификация: SLM быстро генерирует ответ, а LLM одновременно его проверяет и корректирует.
  4. Условная активация: LLM подключается только если уверенность SLM в своем ответе ниже определенного порога.

Кейсы и примеры применения

  • Конфиденциальность (On-Premise): В медицине (сортировка пациентов) и юриспруденции (анализ контрактов) данные не покидают защищенный контур компании.
  • Высокий объем / Низкая стоимость: Обработка чеков и счетов (например, Microsoft Phi-3 может делать это с точностью 99% при 1% стоимости от затрат на GPT-4).
  • Узкая специализация: Кодинг-ассистенты, обученные на специфическом стиле компании, или классификация тикетов службы поддержки.

Реальные примеры компаний

  • Uber: использует SLM в своих агентских RAG-системах.
  • Microsoft: тестирует SLM для управления цепочками поставок в облаке и взаимодействия с приложениями через естественный язык.
  • OpenAI: также выпускает руководства по созданию агентов с использованием таких моделей.

Заключение

По прогнозам Gartner, к 2027 году организации будут использовать узкоспециализированные малые модели в три раза чаще, чем универсальные LLM.