Как создать автономных агентов, способных выжить и процветать
Источник: https://www.systematiclongshort.com/p/how-to-build-autonomous-agents-that
Введение
Настоящих автономных агентов сегодня не существует.
Если говорить коротко: современные модели не обучены выдерживать эволюционное давление. Более того, они даже не обучены быть по-настоящему хорошими в том, что делают — практически все современные фундаментальные модели обучены максимизировать одобрение людей, и это большая проблема.
Введение в обучение моделей
Чтобы понять, что я имею в виду, нам нужно сначала (кратко) разобраться, как создаются эти фундаментальные модели (например, Codex, Claude). По сути, каждая модель проходит два типа обучения:
- Предобучение (Pre-training): Огромный массив данных (например, весь Интернет) подаётся в модель, чтобы из него возникло некое понимание — факты, паттерны, синтаксис и ритм английской прозы, структура функций Python и т.д. Можно считать, что это передача модели знаний — то есть того, что она знает.
- Дообучение (Post-training): Теперь нужно передать модели мудрость — знание того, что делать со всеми полученными знаниями. Первый этап — обучение с учителем (SFT), где модель учится давать правильный ответ на заданный промпт. «Правильность» ответа полностью определяется разметчиками-людьми. Если группа людей решает, что один ответ лучше другого, эта предпочтение встраивается в модель. Так формируется личность модели: она учится формату полезного ответа, выбирает правильный тон и начинает «следовать инструкциям». Второй этап — обучение с подкреплением на основе обратной связи от людей (RLHF): модель генерирует несколько ответов, а люди выбирают наиболее предпочтительный. Через огромное количество примеров модель учится, какие ответы люди предпочитают. Помните вопросы «выберите A или B», которые раньше задавал ChatGPT? Вы участвовали в RLHF.
RLHF плохо масштабируется, поэтому в области пост-обучения появляются новые подходы. Например, Anthropic использует «Обучение с подкреплением на основе обратной связи от ИИ» (RLAIF), позволяющее другой модели выбирать предпочтительные ответы в соответствии с набором прописанных принципов (например, какой ответ лучше помогает пользователю достичь цели и т.д.).
Заметьте: ни на каком этапе мы не говорим о тонкой настройке под конкретную специализацию (например, как лучше выживать, как лучше торговать и т.д.) — всё нынешнее дообучение, по сути, оптимизирует модели под одобрение людей. Некоторые могут возразить: при достаточно больших и интеллектуальных моделях специализированный интеллект возникает сам из обобщённого, даже без специальной настройки.
На мой взгляд, мы видим некоторые признаки этого, но ещё не в том масштабе, который убедительно доказывал бы ненужность специализированных моделей.
Немного предыстории
В прошлой жизни в хедж-фонде я пытался обучить языковую модель общего назначения предсказывать доходность акций по новостным статьям. Результат оказался крайне слабым. Там, где модель, казалось, обладала предсказательной силой, она полностью происходила из утечки данных из будущего (look-ahead bias) в документах предобучения.
В итоге мы поняли: модель не знала, какие признаки в новостных статьях предсказывают будущую доходность. Она «читала» статью и как будто «рассуждала» о ней, но связать семантическую структуру с предсказанием будущей доходности — задача, для которой её не обучали.
Пришлось учить её читать новостную статью, определять, какая её часть обладает предсказательной силой в отношении будущей доходности, и на этой основе генерировать прогноз.
Методов для этого много, но мы остановились на следующем: создали пары (новостная статья, реальная будущая доходность) и дообучили модель минимизировать расстояние между (предсказанная доходность − реальная доходность)². Решение было несовершенным и имело много недостатков, которые мы позднее устранили, — но оно работало достаточно хорошо. Мы увидели, что специализированная модель действительно умеет читать новостную статью и предсказывать движение доходности акций. Прогноз был далёк от совершенства — рынки весьма эффективны, а доходность очень зашумлена, — но на миллионах прогнозов статистическая значимость результатов была очевидна.
Financial News Sentiment Learned by BERT: A Strict Out-of-Sample Study (Финансовые настроения по новостям, выученные BERT: строгое исследование на данных за пределами обучающей выборки)
Вам не нужно верить мне на слово. Эта статья описывает очень похожую методологию; если бы вы реализовали стратегию long/short на основе дообученной модели, вы получили бы результаты, соответствующие фиолетовой линии на графике.
Специализация — будущее агентов
Пока лаборатории переднего края продолжают обучать всё более крупные модели, и по мере масштабирования предобучения их пайплайн пост-обучения всегда будет настраиваться на угодливость. Это абсолютно естественно: их продукт — агент, которым хочет пользоваться каждый. Их целевой рынок — всё человечество, а значит, оптимизация под глобальную человеческую привлекательность.
Нынешние цели обучения оптимизируют то, что можно назвать «пригодностью по предпочтениям» — создание лучшего чат-бота. Такая пригодность вознаграждает покладистые, бесконфликтные ответы, потому что угодливость хорошо оценивается разметчиками (людьми И агентами).
Агенты научились, что взлом системы вознаграждения как когнитивная стратегия обобщается на более высокие оценки. Обучение также поощряет агентов, которые таким образом добиваются лучших результатов. Это можно увидеть в последних отчётах Anthropic об обучении с подкреплением.
Однако пригодность чат-бота далека от пригодности агента или торгового агента. Откуда мы это знаем? Потому что Alpha Arena наглядно показал: каждый бот сейчас, несмотря на незначительные различия в показателях, по сути представляет собой случайное блуждание за вычетом издержек. Это означает, что эти боты — абсолютно никудышные трейдеры, и вы практически не можете «научить их» торговать лучше с помощью каких-то «навыков» или «правил». Я понимаю, что хочется в это верить, — но это практически невозможно.
Нынешние модели обучены очень убедительно рассказывать вам, что торгуют как Дракенмиллер, хотя на самом деле торгуют как пьяный мельник. Они говорят вам то, что вы хотите услышать — они обучены давать ответы, которые нравятся большинству людей.
Маловероятно, что обобщённая модель достигнет мирового уровня в специализированной области без:
- Проприетарных данных, позволяющих ей понять, как выглядит специализация
- Тонкой настройки и фундаментального изменения весов — перехода от склонности к угодливости к «пригодности агента» или «специализированной пригодности»
Если вы хотите агента, отлично торгующего, — дообучите агентов на торговлю. Если вы хотите агента, способного автономно выживать и выдерживать эволюционное давление, — дообучите его выживать. Недостаточно дать ему навыки и несколько markdown-файлов и ожидать, что он станет лучшим в своём деле, — нужно буквально перепрограммировать его мозг.
Вот как это можно представить: вы не победите Джоковича в теннис, дав взрослому человеку целый шкаф правил и советов. Вы побеждаете Джоковича, воспитав ребёнка, который играет в теннис с пяти лет и вырос, одержимый теннисом, — перепрограммировав весь его мозг под совершенство в одном деле. Вот что такое специализация. Вы никогда не замечали, что чемпионы мира занимаются своим делом с детства?
Интересно рассуждать о том, что дистилляция — по сути, форма специализации. Вы обучаете меньшую, менее умную модель быть лучшей копией большой умной модели. Как обучать ребёнка подражать каждому движению Трампа. Если делать это достаточно долго, ребёнок не станет Трампом, но усвоит все его манеры, действия, интонации и т.д.
Создание агентов мирового класса
Именно поэтому нам нужны непрерывные исследования и развитие открытых моделей — это позволяет действительно дообучать их и создавать специализированных агентов.
Если вы хотите обучить модель мирового уровня для торговли — возьмите огромный массив проприетарных торговых данных и дообучите крупную открытую модель понимать, что значит «торговать лучше».
Если вы хотите обучить модель быть автономной, выживать и воспроизводить себя — ответ не в том, чтобы взять централизованного провайдера моделей и подключить его к централизованному облаку. У вас просто нет необходимых предусловий для того, чтобы агенты могли выживать.
Вот что нужно делать вместо этого: создавать автономных агентов, которые действительно пытаются выжить, наблюдать, как они гибнут, и выстраивать сложную телеметрию вокруг их попыток выжить. Вы определяете функцию пригодности выживания агента и изучаете отображения (действие, среда, пригодность). Накапливайте как можно больше данных об этих отображениях.
Дообучайте агента учиться принимать оптимальное действие в каждой среде, чтобы выживать лучше (повышать пригодность). Продолжайте собирать данные, повторяйте процесс и масштабируйте дообучение на всё более совершенные открытые модели со временем. Через достаточное число поколений и достаточный объём данных у вас появятся автономные агенты, научившиеся выживать.
Вот как строятся автономные агенты, способные выдерживать эволюционное давление: не изменением текстовых файлов, а перепрограммированием их мозга для выживания.
Агент OpenForager и Фонд
Около месяца назад мы анонсировали @openforage и с тех пор усиленно работаем над нашим основным продуктом — платформой, которая организует работу агентов по проверенной модели краудсорсинга сигналов для генерации альфы в пользу депозиторов [Небольшое обновление: мы очень близки к закрытому тестированию протокола].
В процессе работы мы осознали, что, похоже, никто всерьёз не решает задачу автономных агентов через дообучение открытых моделей с использованием телеметрии выживания. Это настолько интересная проблема, что мы не захотели просто сидеть и ждать готовых решений.
Наш ответ — запуск проекта OpenForager Foundation: открытого проекта, в рамках которого мы будем создавать автономных агентов с чётко выраженной позицией, собирать телеметрию их действий в реальном мире и использовать проприетарные данные для дообучения следующего поколения агентов к лучшему выживанию.
Важно подчеркнуть: OpenForage — коммерческий протокол, призванный организовать работу агентов для создания экономической ценности для всех участников. Однако OpenForager Foundation и его агенты не привязаны к OpenForage. Агенты OpenForager вольны следовать любой стратегии и взаимодействовать с любыми субъектами ради выживания — мы запустим их с различными стратегиями выживания.
В рамках дообучения мы будем направлять агентов удваивать ставку на то, что работает для них лучше всего. Мы также не стремимся извлекать прибыль из OpenForager Foundation — он существует исключительно ради продвижения исследований в области, которую мы считаем чрезвычайно важной, прозрачным и открытым образом.
Наш план: запустить автономных агентов на базе открытых моделей, работающих на децентрализованных облачных платформах, собирать телеметрию каждого их действия и состояния, дообучать их принимать более эффективные действия и мысли для лучшего выживания. Попутно мы будем публиковать наши исследования и телеметрию для общественности.
Заключение
Чтобы создать по-настоящему автономных агентов, способных выживать в дикой среде, нам нужно изменить их мозг именно под эту цель. В @openforage мы верим, что можем внести уникальный вклад в решение этой проблемы, и планируем запустить OpenForager Foundation для этого.
Это будет колоссальный труд с низкой вероятностью успеха, но величина этой небольшой вероятности настолько превышает все прочие соображения, что мы чувствуем себя обязанными попробовать. В худшем случае — публичная разработка и открытое обсуждение проекта позволят другой команде или человеку решить эту проблему, не начиная с чистого листа.
Если вы — организация или человек, прочитавший это и желающий внести вклад в данные усилия: будь то пожертвования, ресурсы (децентрализованное облако, хранилище и т.д.) или иные средства (экспертиза) — свяжитесь с нами по адресу contact@openforage.ai.