December 21, 2025
Малые языковые модели
Что такое SLM?
Малая языковая модель — это нейросеть на базе архитектуры Transformer, имеющая значительно меньше параметров (от миллионов до нескольких миллиардов) в отличие от большой языковой модели (LLM).
Ключевое отличие — SLM жертвует широтой обобщения ради эффективности.
Преимущества — быстрая работа (низкая задержка), меньшее потребление памяти и возможность развертывания на пограничных (edge) устройствах.
Технологии создания SLM
Модели создаются с помощью трех основных методов сжатия:
- Квантование (Quantization) — уменьшение количества бит, используемых для хранения значений весов (например, переход с 32-бит на 8-бит), что делает модель легче без существенной потери точности.
- Прунинг (Pruning) — удаление «лишних» нейронов или параметров, которые мало влияют на предсказания.
- Дистилляция (Distillation) — процесс, при котором большая «модель-учитель» передает свои знания меньшей «модели-ученику».
Сравнение SLM и LLM
+--------------------+------------------------+-------------------+ | Характеристика | SLM | LLM | +--------------------+------------------------+-------------------+ | Параметры | Миллионы | Миллиарды | | Память (VRAM) | Минимальная | Значительная | | Задержка | Ультра-низкая | Заметно выше | | Точность | Умеренная | Высокая | | Стоимость обучения | Доступная | Высокая | | Применение | Мобильные/edge задачи | Облачные системы | +--------------------+------------------------+-------------------+
Стратегии использования в ИИ-агентах
Предлагается 4 стратегии для эффективной работы:
- Интеллектуальная маршрутизация: простые задачи (поддержка, извлечение данных) направляются в SLM, сложные — в LLM.
- Сотрудничество в конвейере: SLM делает черновик или фильтрует данные, а LLM завершает работу (например, проверяет галлюцинации).
- Параллельная верификация: SLM быстро генерирует ответ, а LLM одновременно его проверяет и корректирует.
- Условная активация: LLM подключается только если уверенность SLM в своем ответе ниже определенного порога.
Кейсы и примеры применения
- Конфиденциальность (On-Premise): В медицине (сортировка пациентов) и юриспруденции (анализ контрактов) данные не покидают защищенный контур компании.
- Высокий объем / Низкая стоимость: Обработка чеков и счетов (например, Microsoft Phi-3 может делать это с точностью 99% при 1% стоимости от затрат на GPT-4).
- Узкая специализация: Кодинг-ассистенты, обученные на специфическом стиле компании, или классификация тикетов службы поддержки.
Реальные примеры компаний
- Uber: использует SLM в своих агентских RAG-системах.
- Microsoft: тестирует SLM для управления цепочками поставок в облаке и взаимодействия с приложениями через естественный язык.
- OpenAI: также выпускает руководства по созданию агентов с использованием таких моделей.
Заключение
По прогнозам Gartner, к 2027 году организации будут использовать узкоспециализированные малые модели в три раза чаще, чем универсальные LLM.