Учим ИИ-агентов размышлять — новые алгоритмы для тренировки нейросетей

Представьте, что вы учите собаку командам. Даёте лакомство за правильное действие и игнорируете, либо даже наказываете за ошибки. Примерно так и работает обучение с подкреплением (Reinforcement Learning, RL) — метод, который превращает большие языковые модели (БЯМ) из «статистических попугаев» в рассуждающих агентов.

Давайте в этой статье разберём, как сегодня исследователи улучшают RL-алгоритмы для тренировки ИИ-агентов, и почему подходы компании ByteDance (создатель TikTok) — вроде DAPO и VAPO — могут изменить будущее нейросетей.

Что такое обучение с подкреплением?

RL (Reinforcement Learning) — метод, в котором ИИ-агент учится методом проб и ошибок:

Агент (нейросеть) получает задачу (например, решить математическую задачу).
За правильные действия он получает «вознаграждение» (например, +1 балл).
За ошибки — штраф (–1 балл). Также чаще всего штраф выдаётся за бесцельное блуждание в пространстве решений.

Цель агента — максимизировать суммарное вознаграждение. Это как игра в «горячо-холодно», в которой агент ищет оптимальную стратегию.

Policy Optimization: как ИИ-агент учится на своих ошибках

Policy Optimization (Оптимизация стратегии) — процесс настройки поведения модели. Представьте, что ИИ-агент — это студент, который:

Решает задачу.
Получает оценку от преподавателя (например, «верно» или «неверно»).
Корректирует подход, чтобы в следующий раз получить балл получше.

Но как именно «корректировать»? Здесь вступают в игру алгоритмы вроде PPO и GRPO — они определяют, насколько сильно менять поведение модели после каждой ошибки.

От PPO к VAPO: эволюция алгоритмов

1. PPO (Proximal Policy Optimization)

Базовый метод, который не даёт модели «сломаться» после неудачных экспериментов.

Как работает: ограничивает шаг обновления, чтобы изменения были небольшими (представьте, что студент не бросает учебник после первой же двойки, а аккуратно правит свои конспекты).
Проблема: если делать много мелких шагов, то модель перестаёт учиться — градиенты «затухают».

2. GRPO (Group Relative Policy Optimization)

Улучшенная версия PPO, в которой модель сравнивает свои решения не с абстрактным идеалом, а с группой других ответов.

Плюс: Снижает зависимость от «идеального» примера, который не всегда достижим.

3. DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization)

Новый алгоритм от компании ByteDance, который решает две проблемы PPO:

Двойное ограничение (Decoupled Clip): клиппинг градиентов с разными порогами для позитивных и негативных обновлений. Это как давать студенту разные «штрафы» за ошибки и «бонусы» за успехи.
Динамический семплинг: учёт длины «траекторий» (например, в диалоге из 100 сообщений важны все шаги, а не только итог).

Статья про DAPO | Код на GitHub

4. VAPO (Value-based Augmented PPO)

Возврат к «критику» — отдельной модели, которая оценивает, насколько решение близко к идеалу.

Преимущество: критик помогает точнее находить ошибки в длинных рассуждениях (например, в задачах с цепочкой из 50 логических шагов).
Результат: подход VAPO обходит DAPO на 10 баллов в тесте AIME 2024.

Статья про VAPO

5. TOPR (Trust Region-Guided Outcome-Regularized RL)

Алгоритм, который борется с «затуханием» градиентов при тысячах мелких шагов. Аналогия: если студент 100 раз переписывает одно и то же уравнение, TOPR не даёт ему зациклиться.

Статья про TOPR

Seed-Thinking-v1.5: Как это работает на практике

В июне 2024 года компания ByteDance выпустила модель Seed-Thinking-v1.5 (200 млрд параметров), в которой они применили как DAPO, так и VAPO. Результаты таковы:

Модель успешно решает задачи уровня международных олимпиад (AIME 2024).
Модель генерирует длинные цепочки рассуждений без потери логики.

Это доказывает, что новые алгоритмы не просто теоретические выкладки — они работают в реальных проектах.

Зачем это нужно обычным пользователям?

Персональные ассистенты станут умнее: смогут вести диалоги на сотни сообщений, не теряя нити и логики рассуждений.
Образовательные ИИ-агенты будут объяснять математику как репетитор-человек, а не выдавать сухие ответы (зачастую некорректные).
Кодогенераторы научатся исправлять свои ошибки без подсказок.

Заключение

PPO, GRPO, DAPO, VAPO — это не случайный набор букв, а эволюция того, как ИИ-агент учится. Как когда-то модель GPT-3 удивила мир генерацией текста, так и модель Seed-Thinking-v1.5 показывает, что RL-тюнинг открывает новый этап для языковых моделей.

Что дальше? В предыдущей статье мы разбирали, как заставить ИИ-агента «размышлять». Теперь вы знаете, как его тренировать.

Подписывайтесь на блог и Telegram-канал «Технооптимисты» (https://t.me/drv_official) — следите за тем, как нейросети учатся думать!