GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

GEPA (Genetic-Pareto) — новый алгоритм для оптимизации промптов в сложных, многомодульных AI-системах

Вместо традиционного обучения с подкреплением (RL), GEPA использует эволюционный подход, основанный на естественном языке

Его ключевое нововведение — «рефлексивная мутация промптов», в рамках которой LLM на естественном языке анализирует собственную производительность (включая цепочки рассуждений, использование инструментов и подробную обратную связь), чтобы диагностировать ошибки и предлагать точечные улучшения в свои же инструкции

Этот процесс управляется генетическим алгоритмом, который использует отбор по Парето для поддержания разнообразия высокопроизводительных промптов, не давая оптимизатору застрять в локальных оптимумах

GEPA показывает, что обучение через языковую саморефлексию значительно эффективнее по данным, чем обучение на основе разрежённых скалярных наград

Алгоритм превосходит RL-метод GRPO в среднем на 10 %, используя при этом до 35 раз меньше «роллаутов» (прогонов системы), опережает передовой оптимизатор промптов MIPROv2 (https://aclanthology.org/2024.emnlp-main.525/)

Эволюция одних лишь подробных инструкций может быть эффективнее, чем оптимизация few-shot примеров

Этот подход делает адаптацию мощных AI-систем гораздо практичнее и доступнее, особенно в тех случаях, когда данные дефицитны или каждый запуск системы обходится дорого

Оптимизация производительности сложных AI-агентов — систем, объединяющих несколько модулей LLM, вызовы инструментов и сложную логику — является одной из центральных задач в современном AI

Долгое время популярным подходом оставалось обучение с подкреплением (RL), где агент учится методом проб и ошибок, руководствуясь скалярным сигналом награды

Метод часто оказывается чем-то вроде перебора «в лоб», требуя десятков, а то и сотен тысяч запусков системы («роллаутов») для достижения значимых улучшений

Эта высокая потребность в данных (sample cost) — серьёзное узкое место, делающее RL непрактичным для многих реальных приложений, где каждый роллаут может быть вычислительно дорогим, трудоёмким или финансово затратным

Новая статья, подготовленная большой коллаборацией исследователей из UC Berkeley, Stanford, Databricks и MIT, бросает вызов этой парадигме

Авторы утверждают, что для систем, построенных на больших языковых моделях (LLM), сам язык, который они обрабатывают, предлагает гораздо более богатую и эффективную среду для обучения, чем простая скалярная награда

Их алгоритм, GEPA (Genetic-Pareto), демонстрирует, что AI-система может учиться эффективнее, «рефлексируя» над своим поведением на естественном языке

В результате метод получается не только более мощным, но и значительно более эффективным

GEPA вводит новую схему оптимизации, построенную на нескольких ключевых принципах: генетической эволюции промптов, рефлексии на естественном языке и отборе кандидатов на основе критерия Парето

1. Рефлексия на естественном языке

В основе GEPA лежит способность учиться на подробной текстовой обратной связи

Вместо того чтобы просто получать оценку, вся трассировка выполнения системы подаётся обратно в LLM для анализа

Эта обратная связь — не просто число; это богатая текстовая запись всего процесса, включая собственные цепочки рассуждений LLM, конкретные вызовы инструментов и даже детальную диагностическую информацию из среды оценки, такую как ошибки компилятора или неудачные юнит-тесты

«LLM-рефлектор» анализирует этот текстовый фидбэк, чтобы понять, что пошло не так (или, наоборот, правильно), и предлагает конкретные, целенаправленные правки в инструкции для системы

Пример промпта, сгенерированного GEPA, демонстрирует уровень детализации и стратегической проработки, который выходит далеко за рамки простой инструкции, и включает разделы «Ключевые наблюдения», «Цель и контекст» и «Практическая стратегия»

2. Генетико-Парето оптимизация

Для управления процессом обучения GEPA использует эволюционную стратегию поиска

Алгоритм поддерживает пул кандидатов-наборов промптов и итеративно «мутирует» их на основе идей, полученных на этапе рефлексии

Чтобы избежать распространённой ловушки застревания в локальном оптимуме, GEPA использует стратегию, похожую на поиск с «освещением», известную как отбор на основе критерия Парето

Вместо того чтобы жадно карабкаться на один самый высокий пик, GEPA пытается «осветить всю горную цепь», выявляя кандидатов, которые являются лучшими хотя бы для одного конкретного примера задачи

Это поощряет разнообразие стратегий и в конечном итоге приводит к более надёжному и общему решению

Влияние этого выбора наглядно показано в статье: отбор по Парето ведёт к сбалансированному, исследовательскому дереву поиска, в отличие от узкого и зашедшего в тупик поиска при наивном жадном подходе

Экспериментальные результаты выглядят убедительно и демонстрируют сильные стороны GEPA на четырёх разнообразных задачах — HotpotQA, IFBench, HoVer и PUPA — и на двух разных LLM (Qwen3 8B и GPT-4.1 Mini)

* Превосходство над обучением с подкреплением

GEPA превосходит RL-бейзлайн GRPO в среднем на 10 %, с приростом до 19 % на отдельных задачах

Самое впечатляющее, что он достигает этого, используя при этом до 35 раз меньше роллаутов

Кривые обучения наглядно показывают, что GEPA достигает более высокой производительности гораздо быстрее, чем GRPO

* Опережение state-of-the-art оптимизаторов промптов

GEPA также стабильно превосходит MIPROv2, ведущий оптимизатор, который совместно настраивает инструкции и few-shot примеры

Он более чем удваивает совокупный прирост производительности, наблюдаемый у MIPROv2, и достигает этого с промптами, которые в среднем на 33 % короче, что напрямую выливается в снижение затрат на инференс

* Сила инструкций

Особенно удивительным открытием стало то, что оптимизация одних лишь инструкций с помощью GEPA превосходит совместную оптимизацию инструкций и few-shot примеров в MIPROv2

Это наводит на мысль, что по мере того, как LLM становятся лучше в следовании сложным инструкциям, эволюция детального, рефлексивного набора инструкций может быть более мощной и эффективной стратегией, чем подборка in-context примеров

В статье представлены предварительные результаты использования GEPA в качестве стратегии поиска на этапе инференса для узкоспециализированных областей, таких как оптимизация кода

Применив GEPA для генерации ядер CUDA и NPU, авторы смогли итеративно улучшать код на основе обратной связи от компилятора и добиться значительного прироста производительности по сравнению с сильными бейзлайнами

Авторы честно говорят об ограничениях метода

Граница между обучением на основе промптов и традиционным файнтюнингом весов остаётся открытым вопросом; в сценариях с изобилием данных полный файнтюнинг, вероятно, всё ещё будет иметь преимущество

В статье также предполагается, что GEPA можно улучшить, добавив оптимизацию few-shot примеров или разработав более изощрённый «feedback engineering» для извлечения самых ценных обучающих сигналов из трассировок системы

Ключевым направлением для будущих исследований является интеграция рефлексивной эволюции промптов с адаптацией весов модели

Гибридный подход, в котором идеи, полученные GEPA на основе языка, будут направлять более эффективные роллауты RL или файнтюнинга, мог бы объединить оба подхода и привести к ещё большей производительности и эффективности

Заключение

Статья «GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning» представляет собой значительный и практический прорыв в области оптимизации AI-систем

Рассматривая язык не просто как интерфейс, а как основную среду для обучения и рефлексии, авторы разработали метод, который наглядно демонстрирует большую эффективность по данным, производительность и экономичность, чем существующие подходы

В конечном счёте, успех GEPA говорит о том, что будущее оптимизации AI может лежать не столько в методах статистического перебора, сколько в наделении наших систем способностью к саморефлексии

Обучаясь на языке, а не только на числах, GEPA делает важный шаг к созданию AI, который совершенствуется, не просто выполняя действия, а понимая их

Эта статья — ценный вклад и обязательна к прочтению всем, кто работает на переднем крае систем на базе LLM и агентного AI

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Authors: Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab

Paper: https://arxiv.org/abs/2507.19457

Review: https://arxiviq.substack.com/p/gepa-reflective-prompt-evolution