Mixture-of-Experts: архитектура, которая учит ИИ быть универсалом и специалистом одновременно

В области больших языковых моделей (БЯМ) имеется странный парадокс: чем больше параметров, тем выше качество, но и дороже обучение. Как сделать модель одновременно мощной и экономичной? Ответ — Mixture-of-Experts (MoE), подход, при реализации которого нейросеть объединяет десятки «экспертов», каждый из которых решает узкие задачи.

Эта статья — ваш путеводитель по эволюции MoE: от первых экспериментов 90-х до моделей GPT-4 и Gemini, в которых этот подход стал ключом к эффективности.

Исторические корни: от комитетов машинного обучения к нейросетевым экспертам

Идея разделения модели на специалистов возникла задолго до эры трансформеров. В 1991 году Майкл Джордан и Роберт Джейкобс предложили комитеты экспертов — ансамбли моделей, в которых каждая решала свою подзадачу. Но настоящий прорыв случился в 2017 году, когда исследователи из компании Google Brain применили подход MoE в рамках архитектуры Transformer. Их работа «Outrageously Large Neural Networks» показала: можно создать модель с триллионом параметров, активируя лишь 2 — 4 % из них для каждого запроса.

Как работает классический MoE?

MoE-модель состоит из двух компонентов:

Эксперты — независимые нейросетевые модули, каждый обучен на определённом типе данных (например, математика, код, диалоги).
Роутер — алгоритм, который для каждого входного запроса выбирает, каких экспертов задействовать.

Например, при запросе «Реши уравнение и переведи ответ на французский» роутер активирует:

эксперта по математике;
эксперта по переводу.

Это снижает вычислительные затраты: вместо всей модели работают только нужные части.

MoE в современных БЯМ: от GShard до GPT-4

С 2020 года MoE стал стандартом для гигантских моделей:

Google GShard (2020): первая реализация MoE в промышленном масштабе для машинного перевода. Каждый эксперт — отдельный GPU.
Switch Transformer (2021): модель с 1.6 трлн параметров, в которой роутер выбирает одного эксперта на запрос. Увеличила скорость обработки в 7 раз.
GPT-4 (2023): по данным компании Microsoft, использует MoE с 16 экспертами. Это как раз и объясняет, как модель одновременно пишет код, генерирует стихи и решает логические задачи.
Mixtral 8x7B (2023): модель от Mistral AI. 8 экспертов по 7 млрд параметров каждый, но активируется только 2. Сопоставима с моделью GPT-3.5 при вдвое меньших затратах.

Эволюция MoE: от классики к гибридам

Современные вариации подхода MoE решают проблемы первых версий:

Балансировка нагрузки: ранние роутеры перегружали популярных экспертов. Решение — Noisy Top-K Gating (добавление шума при выборе).
Специализация экспертов: в работе Google Brain 2022 предлагается, чтобы эксперты обучались на разных доменах (наука, юриспруденция).
Динамический MoE: в модели DeepSeek-R1 эксперты объединяются в цепочки для многошаговых задач.

Связь с другими темами

Подход MoE пересекается с идеями из предыдущих моих статей:

В стратегиях промптинга мы разбирали, как заставить ИИ «размышлять». Подход MoE делает это на архитектурном уровне, распределяя задачи между экспертами.
Память ИИ-агентов — эксперты MoE можно считать «долгосрочной памятью» для специфических знаний.
В протоколе Google A2A межагентное взаимодействие напоминает работу роутера, выбирающего экспертов.

Что дальше? ADAS — автоматизация проектирования экспертов

Сегодня создание моделей MoE требует ручного труда: инженеры решают, сколько экспертов создать и как их специализировать. Но уже в 2024 году появился подход ADAS (Automatic Design of Agentic Systems), при использовании которого один специальный агент сам проектирует архитектуру экспертов под задачу. Например:

определяет оптимальное число модулей;
распределяет данные для обучения;
тестирует комбинации экспертов.

В следующей статье разберём, как ADAS ускоряет создание моделей MoE и какие этические вопросы это поднимает.

Заключение

Подход MoE — не просто технический трюк для экономии ресурсов. Это шаг к модульному ИИ, в котором модели собираются, как конструктор, под конкретные нужды. Пока компании Google и OpenAI используют MoE для гигантских БЯМ, открытые проекты вроде DeepSeek доказывают: технология доступна и для небольших команд.

Остаётся вопрос: сможет ли подход MoE преодолеть главный недостаток — сложность обучения роутера? Ответ даст новая эра — эра ADAS и автономного проектирования ИИ.

Читайте также:

Подписывайтесь на Telegram-канал «Технооптимисты» (https://t.me/drv_official) — следующая статья про ADAS уже в работе!