AI-агенты: Исследования и применение
В последние годы концепция агента приобретает все большее значение в различных областях, включая философию, игровую индустрию и искусственный интеллект (ИИ). В традиционном смысле агентность относится к способности субъекта действовать автономно, делать выбор и проявлять намеренность — качества, которые исторически ассоциировались с человеком.
В современном ИИ агентность приобрела более сложное значение. С появлением автономных агентов, которые способны наблюдать, учиться и действовать независимо в своих средах, ранее абстрактное понятие агентности воплотилось в вычислительных системах. Эти агенты работают с минимальным участием человека и демонстрируют уровень намеренности, который, хотя и является вычислительным, а не сознательным, позволяет им принимать решения, учиться на опыте и взаимодействовать с другими агентами или людьми все более сложными способами.
Эта статья посвящена развивающемуся миру автономных агентов, в частности агентов, основанных на больших языковых моделях (LLM), и их влиянию на такие разнообразные области, как игровая индустрия, управление, наука, робототехника и многое другое. Основываясь на принципах агентности, данная статья рассматривает как архитектуру, так и применение искусственных агентов. Этот подход позволяет понять, как агенты выполняют задачи, обрабатывают информацию и эволюционируют в рамках своих операционных сред.
- Предоставить структурированный обзор ИИ-агентов и их архитектурных основ, сосредотачиваясь на таких компонентах, как память, восприятие, рассуждение и планирование.
- Изучить новейшие тенденции в исследованиях ИИ-агентов, выделяя области их применения, где агенты переосмысливают границы возможного.
Примечание: Поскольку статья довольно объемная, стоит отметить, что в боковой панели представлен оглавление для удобной навигации (оригинал).
Тенденции в исследованиях агентов
Разработка агентов на основе больших языковых моделей (LLM) представляет собой значительный этап в исследованиях ИИ, отражающий прогресс через последовательные парадигмы: символическое рассуждение, реактивные системы, обучение с подкреплением и адаптивные методы обучения. Каждая из этих стадий внесла уникальные принципы и подходы, сформировав современные подходы на основе LLM.
Символические агенты
Символические агенты, основанные на ранних исследованиях ИИ, использовали символический ИИ, применяя логические правила и структурированные представления знаний для имитации человеческого рассуждения. Эти системы предлагали структурированный, интерпретируемый подход к рассуждению, аналогичный человеческой логике. Яркий пример — экспертные системы, основанные на знаниях, которые разрабатывались для решения конкретных задач, таких как диагностика заболеваний или игра в шахматы.
Символические агенты обеспечивают высокую интерпретируемость и выразительность в процессе принятия решений, позволяя легко объяснять свои действия. Однако они сталкиваются с ограничениями в условиях неопределенности и сложных, динамичных сред. Их высокая вычислительная сложность снижает эффективность, особенно в реальных сценариях, требующих адаптации и быстроты.
Реактивные агенты
Реактивные агенты стали переходом от сложного символического рассуждения к более простым и быстрым моделям, разработанным для взаимодействия в реальном времени. Действуя через цикл "восприятие-действие", такие агенты воспринимают окружающую среду и немедленно реагируют, избегая глубокого анализа или планирования. Здесь акцент сделан на эффективности и оперативности, а не на когнитивной сложности.
Реактивные агенты вычислительно эффективны, что делает их идеальными для сред, где критически важна скорость реакции. Однако их простота ограничивает способность решать задачи высокого уровня, такие как планирование, постановка целей или адаптация к сложным многошаговым проблемам. Это сужает их применение в областях, где требуется длительное, целенаправленное поведение.
Агенты на основе обучения с подкреплением
Прогресс в вычислительных мощностях и доступности данных вывел обучение с подкреплением (Reinforcement Learning, RL) на передний план, позволяя агентам демонстрировать адаптивное поведение в сложных средах. RL-агенты учатся методом проб и ошибок, взаимодействуя с окружением и корректируя действия на основе полученных вознаграждений. Такие техники, как Q-learning и SARSA, внесли вклад в оптимизацию стратегий, а глубокое обучение с подкреплением интегрировало нейронные сети для обработки данных высокой размерности (например, изображений или игр). Примером является AlphaGo, использующий эти методы для победы над человеческими чемпионами в игре Го.
RL-агенты способны автономно улучшать свои результаты в динамичных средах без участия человека, что делает их ценными для применения в играх, робототехнике и автономных системах. Однако RL сталкивается с такими проблемами, как длительный период обучения, низкая эффективность использования данных и проблемы со стабильностью, особенно в более сложных сценариях.
Агенты на основе больших языковых моделей (LLM)
Появление LLM переопределило дизайн ИИ-агентов, превращая LLM в "мозг" этих агентов, способный с высокой точностью и гибкостью понимать и генерировать естественный язык. LLM совмещают элементы символического рассуждения, реактивного отклика и адаптивного обучения, используя методы, такие как пошаговые рассуждения (Chain-of-Thought, CoT) и декомпозиция задач. Это позволяет структурированно рассуждать, сохраняя оперативность.
Агенты на основе LLM также демонстрируют способности к обучению с минимальным количеством примеров (few-shot learning) и без них (zero-shot learning), что позволяет им обобщать новые задачи с минимальными примерами. Их универсальность охватывает такие области, как разработка программного обеспечения, научные исследования и автоматизация. Способность взаимодействовать естественно и адаптивно с другими агентами приводит к возникновению социальных моделей поведения, включая сотрудничество и конкуренцию, что делает их подходящими для совместных сред.
Кроме того, LLM-агенты способны переключаться между задачами в разных областях без необходимости обновления параметров, что повышает их полезность в сложных и динамичных средах. Комбинируя интерпретируемость, адаптивное обучение и обработку естественного языка, они представляют собой сбалансированную и высокоэффективную платформу для современных приложений ИИ.
Остальная часть статьи будет посвящена архитектуре, возможностям и ограничениям агентов на основе LLM.
Архитектура агентности
Современная архитектура агентности представляет собой сочетание различных модулей, составляющих основу агента. Далее мы рассмотрим общую таксономию архитектуры агентности, опираясь на подходы, описанные в исследованиях "A Survey on Large Language Model based Autonomous Agents" и "The Rise and Potential of Large Language Model Based Agents: A Survey".
Профиль
В дизайне автономных агентов модуль профиля играет ключевую роль в формировании поведения агента, назначая ему определенные роли (например, учитель, программист или эксперт в определенной области) или личности. Профили влияют как на последовательность, так и на адаптивность ответов агента. Этот модуль функционирует как поведенческий каркас, задающий параметры, которые помогают агенту соответствовать назначенной роли или личности в процессе взаимодействий. Такой подход особенно важен для задач, где требуется стабильная роль или индивидуализированный стиль работы.
Согласно исследованиям "From Persona to Personalization: A Survey on Role-Playing Language Agents", профили агентов на основе LLM можно классифицировать на три основных типа:
1. Демографический профиль
Этот тип профиля отражает характеристики определенной демографической группы, такие как профессия, возраст или тип личности. Демографические профили часто используются в социальных симуляциях или приложениях, направленных на повышение актуальности и контекстной точности вывода. Например, агент может имитировать характеристики data scientist, чтобы предоставлять специализированные технические рекомендации.
2. Персонаж
В данном случае агент воплощает вымышленного персонажа или публичную личность, что часто используется в целях развлечения, в играх (например, для персонажей, управляемых компьютером) или для создания виртуальных компаньонов. Такой подход широко применяется в разговорном ИИ, где персона агента добавляет погружение и вовлеченность в пользовательский опыт.
3. Индивидуализированный профиль
Агент настраивается так, чтобы отражать поведение, предпочтения и уникальные черты конкретного человека, аналогично персонализированному ассистенту. Этот тип профиля чаще всего применяется в случаях, когда агент выступает в качестве прокси для конкретного человека или действует как помощник, адаптирующийся к предпочтениям и поведению пользователя со временем.
Использование персон в LLM-агентах доказало свою эффективность в повышении производительности и способности к рассуждению при выполнении различных задач. Например, подход на основе персоны позволяет LLM предоставлять более глубокие и контекстуально релевантные ответы, воплощая эксперта в определенной области. Более того, в многоагентных системах, таких как ChatDev и MetaGPT, использование персон способствует совместному решению проблем, выравнивая поведение агентов с задачами, что положительно влияет на их выполнение и качество взаимодействий.
Методы создания профилей
Для создания и совершенствования профилей LLM-агентов используются различные подходы, каждый из которых обладает своими преимуществами и особенностями:
- Ручная настройка (Handcrafting): Профили создаются вручную с участием человека, который задает детали. Например, пользователь может настроить агента как "интровертного" или "экстравертного", чтобы отразить определенные черты личности.
- Генерация с использованием LLM (LLM-Generation): Профили создаются автоматически с помощью LLM, начиная с нескольких заданных примеров. Этот метод обеспечивает масштабируемость и адаптивность. Например, RecAgent генерирует начальные профили с характеристиками, такими как возраст, пол и личные интересы, а затем расширяет их с использованием ChatGPT для широкой аудитории.
- Выравнивание на основе данных (Dataset Alignment): Профили создаются на основе реальных наборов данных, таких как демографические исследования, что позволяет агентам отражать реалистичное социальное поведение. Этот метод повышает достоверность взаимодействий, привязывая поведение агентов к эмпирическим данным.
Память
Память является основополагающим компонентом агентов на основе LLM, позволяя им хранить информацию, собранную из окружающей среды, для адаптивного планирования и принятия решений. Подобно человеческой, память агентов играет ключевую роль в обработке последовательных задач и формировании стратегий.
Структура памяти
Структура памяти LLM-агентов вдохновлена когнитивной наукой, в частности, человеческой моделью памяти, которая включает сенсорный ввод, краткосрочное и долгосрочное удержание. У агентов память обычно делится на два основных типа:
Единая память (Unified Memory)
Единая память имитирует краткосрочную память, фокусируясь на недавних наблюдениях, которые могут быть напрямую интегрированы в подсказки для немедленного ответа.
- Техники управления ограничениями окна контекста:
- Обрезка текста и сегментация данных: Конденсирует или разделяет входящую информацию для соответствия ограничениям контекста.
- Резюмирование памяти: Ключевая информация из взаимодействий сводится в краткие резюме, что позволяет сохранить актуальность без перегрузки окна контекста.
- Модификация механизма внимания: Настраивает внимание модели для приоритизации релевантной недавней информации.
Несмотря на простоту, единая память ограничена размером окна контекста в текущих трансформерах, что снижает её масштабируемость при обработке больших объёмов информации.
Гибридная память (Hybrid Memory)
Гибридная память сочетает краткосрочные и долгосрочные структуры. Краткосрочная память действует как временный буфер для фиксирования текущей среды агента, тогда как долгосрочная сохраняет выводы или полезные сведения в внешней базе данных для последующего извлечения.
- Долгосрочное хранение: Чаще всего используется векторная база данных, где мысли кодируются как векторы. Это позволяет эффективно извлекать прошлые взаимодействия через поиск по сходству.
Форматы памяти
Память может быть сохранена в различных форматах, каждый из которых подходит для определённых задач:
- Естественный язык: Сохранение в виде текста, обеспечивающее гибкость и богатство семантического содержания. Например, Reflexion и Voyager используют текст для хранения обратной связи и навыков соответственно.
- Векторы (Embeddings): Кодирование памяти в виде векторов позволяет эффективно извлекать и искать контекстно схожую информацию. Например, MemoryBank и ChatDev используют векторы для быстрого доступа к сегментам памяти.
- Базы данных: Структурированные базы данных дают возможность манипулировать памятью с помощью запросов, подобных SQL. Примеры: ChatDB и DB-GPT.
- Структурированные списки: Память может сохраняться в виде списков или иерархий. Например, GITM организует подцели в списки действий, а RET-LLM преобразует предложения в триплеты для эффективного хранения.
Операции с памятью
Операции с памятью необходимы для взаимодействия агента с хранящимися знаниями:
- Чтение памяти: Извлечение релевантной информации на основе недавности, значимости и важности. Это улучшает способность агента принимать обоснованные решения на основе прошлых действий.
- Запись памяти: Сохранение новой информации требует управления дубликатами и предотвращения перегрузки памяти. Например, Augmented LLM консолидирует избыточные данные, а RET-LLM использует буфер фиксированного размера, который перезаписывает старые записи.
- Рефлексия памяти: Позволяет агентам обобщать прошлый опыт и извлекать высокоуровневые выводы. Например, в Generative Agents рефлексия используется для формирования более широких заключений, что улучшает способности к абстрактному мышлению.
Научные последствия и вызовы
Память и восприятие значительно расширяют возможности агентов на основе LLM, но вместе с этим порождают целый ряд исследовательских вызовов и открытых вопросов.
Основные вызовы в разработке систем памяти:
- Масштабируемость и эффективность:
Масштабирование систем памяти для обработки большого объема информации при сохранении быстрого доступа — одна из ключевых задач. Гибридные системы памяти предлагают перспективные решения, но оптимизация поиска в долгосрочной памяти без ущерба для производительности остается областью активных исследований. - Ограничения контекста:
Текущие LLM ограничены размером окна контекста, что мешает им управлять обширными объемами данных. Динамические механизмы внимания и техники резюмирования продолжают изучаться для повышения эффективности обработки памяти. - Смещение и дрейф в долгосрочной памяти:
Системы памяти уязвимы к смещению, когда определенные типы информации получают приоритет перед другими, что может привести к дрейфу памяти. Регулярное обновление содержимого и корректировка смещения важны для обеспечения надежного поведения агентов. - Катастрофическое забывание:
Одной из самых серьезных проблем является потеря важных данных из долгосрочной памяти из-за перезаписи новыми данными. Это особенно актуально в условиях ограниченного объема памяти. Возможные решения включают:
Восприятие
Как и люди, агенты на основе LLM нуждаются в обработке сенсорных данных для понимания окружения и принятия решений. Мультимодальное восприятие, объединяющее текстовые, визуальные, аудиальные и другие сенсорные входы, позволяет агентам выполнять более сложные и контекстуально чувствительные задачи.
Основные типы входных данных:
- Текстовые данные:
Текст служит основным каналом обмена знаниями и коммуникации. - Имплицитное понимание: Использование методов обучения с подкреплением позволяет агентам учитывать предпочтения пользователей и интерпретировать косвенные запросы.
- Обработка незнакомых задач: Благодаря настройке на инструкции LLM-агенты демонстрируют способности к zero-shot и few-shot обучению, эффективно адаптируясь к новым задачам без дополнительной подготовки.
- Визуальные данные:
Визуальное восприятие позволяет агентам интерпретировать объекты, пространственные отношения и сцены. - Преобразование изображения в текст: Генерация описаний из изображений для текстового анализа, что полезно, но может терять детали.
- Трансформеры для обработки изображений: Использование архитектур, подобных NLP, таких как Vision Transformers (ViT), для токенизации изображений.
- Интеграционные инструменты: Такие как BLIP-2 и InstructBLIP, которые соединяют визуальные и текстовые модальности, а также Flamingo для работы с видео.
Аудиальные данные:
Звуковое восприятие улучшает осведомленность агентов о среде.
- Распознавание и синтез речи: Инструменты вроде AudioGPT объединяют модели для преобразования речи в текст и наоборот.
- Обработка спектрограмм: Анализ аудиоспектрограмм как 2D-изображений для использования визуальных методов.
- Тактильные и сенсорные данные: Сенсоры для измерения температуры, влажности, яркости и других параметров.
- Отслеживание жестов и взгляда: Расширяет возможности взаимодействия с агентами, особенно в AR/VR-средах.
- Пространственное восприятие: Использование LiDAR для генерации 3D-карт и GPS для отслеживания объектов.
Исследовательские вызовы в мультимодальном восприятии:
- Совмещение и интеграция данных:
Для объединения данных из различных модальностей требуются механизмы выравнивания, такие как мультимодальные трансформеры и слои перекрестного внимания. - Масштабируемость и эффективность:
Мультимодальная обработка увеличивает вычислительные затраты. Исследования направлены на разработку моделей, способных обрабатывать такие данные без значительного увеличения ресурсов. - Катастрофическое забывание:
Мультимодальные агенты сталкиваются с аналогичной проблемой забывания, требуя инновационных стратегий для сохранения критически важных данных. - Контекстно-чувствительная генерация ответов:
Ответы должны отражать приоритеты между различными типами входных данных в зависимости от контекста.
Рассуждение и планирование
Модуль рассуждения и планирования позволяет агентам разбивать сложные задачи на более мелкие этапы, подобно тому, как это делают люди. Он усиливает способность агента создавать структурированные планы или адаптироваться в реальном времени на основе обратной связи.
Классификация подходов к планированию:
- Построение полного плана: Агент разрабатывает план до начала выполнения, не изменяя его в процессе.
- Адаптивное планирование: Агент динамически изменяет свои действия, реагируя на обратную связь от окружающей среды, людей или других моделей.
Примечание: Дополнительные техники настройки подсказок описаны в статье "The Prompt Report: A Systematic Survey of Prompting Techniques."
Планирование без обратной связи
При планировании без обратной связи агенты создают полный план выполнения задачи заранее и следуют ему без изменений. Такой подход включает два основных метода:
- Однопутевое планирование: Пошаговый процесс, где каждое действие напрямую ведет к следующему.
- Многопутевое планирование: Одновременное изучение нескольких вариантов, после чего агент выбирает лучший путь.
Эти стратегии помогают агентам выполнять задачи последовательно и эффективно, даже без возможности корректировки в процессе.
Однопутевое рассуждение
Однопутевое рассуждение подразумевает разбиение задач на последовательные шаги, каждый из которых логически вытекает из предыдущего. Этот метод напоминает движение по цепочке действий.
Примеры методов:
- Chain of Thought (CoT):
Метод побуждает модель решать задачи шаг за шагом, предоставляя несколько примеров рассуждений (few-shot примеры). CoT доказал свою эффективность в значительном улучшении качества вывода, зачастую превосходя специализированные модели, обученные для конкретных приложений. - Zero-Shot CoT:
Позволяет модели выполнять пошаговые рассуждения без заранее заданных примеров. Простое добавление подсказок вроде "думай шаг за шагом" активирует механизм пошагового мышления. Zero-Shot CoT показывает результаты, сопоставимые с CoT, и обладает большей универсальностью, особенно в условиях нулевого обучения. - RePrompting:
Это алгоритм, который автоматически генерирует эффективные подсказки для Chain of Thought, используя пары вопросов и ответов без участия человека. Такой подход ускоряет создание оптимальных подсказок и снижает зависимость от ручной настройки.
Многопутевое рассуждение
В отличие от однопутевого рассуждения, многопутевое рассуждение позволяет агентам одновременно исследовать различные пути решения, генерируя множество возможных вариантов и оценивая их для выбора наилучшего. Этот метод полезен для решения сложных задач, где существуют разные подходы.
Примеры методов многопутевого рассуждения:
- Self-consistent CoT (CoT-SC):
Создает несколько путей рассуждений, основываясь на выборке из результатов подсказок CoT, и выбирает шаги, которые встречаются чаще всего. Этот метод можно рассматривать как "самоансамблирование", работающее на базе одной модели. - Tree of Thoughts (ToT):
Структурирует каждый логический шаг в виде дерева, позволяя языковой модели (LM) оценивать, как каждый "шаг мысли" способствует решению. ToT может использовать эвристики поиска, такие как поиск в ширину (BFS) или поиск в глубину (DFS), для систематической навигации. - Graph of Thoughts (GoT):
Расширяет концепцию ToT до графовой структуры, где "мысли" выступают в роли вершин, а зависимости — в роли рёбер, обеспечивая более гибкое и взаимосвязанное рассуждение. - Reasoning via Planning (RAP):
Использует метод Монте-Карло для построения дерева планирования (MCTS). В этом подходе LLM выступает одновременно в роли агента (создающего дерево рассуждений) и модели мира (предоставляющего обратную связь и оценки).
Внешние планировщики (External Planners):
В случаях, когда LLM сталкиваются с задачами, требующими специализированного планирования, внешние планировщики интегрируют специализированные знания, которых может не хватать языковой модели.
Примеры:
- LLM+P:
Преобразует задачи в язык определения планирования (PDDL) и использует внешний планировщик для их решения. Этот метод позволяет агентам выполнять сложные задачи, такие как манипуляции с роботами, переводя инструкции на естественном языке в исполнимые планы. - CO-LLM:
Включает взаимодействие нескольких моделей, где каждая из них поочередно генерирует токены текста. Выбор модели для каждого шага трактуется как скрытая переменная, что позволяет оптимальному паттерну взаимодействия моделей естественным образом формироваться на основе данных задачи.
Планирование с обратной связью
Планирование с обратной связью позволяет агентам адаптироваться к изменениям в их окружении. По мере выполнения задач агенты могут корректировать свои планы, основываясь на новой информации из окружающей среды, взаимодействии с пользователями или обратной связи от других моделей. Этот динамический подход особенно важен для решения непредсказуемых или сложных задач, где первоначальные планы могут требовать доработки.
Обратная связь из окружающей среды:
Агенты, взаимодействующие с физическими или виртуальными средами, могут корректировать планы на основе данных реального времени. Например, при столкновении с препятствиями или неожиданными вызовами модуль планирования пересматривает свои действия, чтобы агент оставался на верном пути.
Примеры методов:
- ReAct:
Сочетает следы рассуждений и подсказки, ориентированные на действия, позволяя агенту создавать адаптивные планы высокого уровня, одновременно взаимодействуя с окружающей средой. - Describe, Explain, Plan, and Select (DEPS):
Используется для задач планирования, например, в контроллерах для Minecraft. DEPS пересматривает планы при обнаружении ошибок. Если подзадача не выполнена, модуль описания фиксирует ситуацию, модуль объяснения выявляет ошибки, а планировщик корректирует и повторяет попытку выполнения задачи. - SayPlan:
Использует графы сцен и переходы состояний из симулированных сред для уточнения стратегий, что обеспечивает более контекстно-ориентированный подход к выполнению задач.
Обратная связь от человека
Взаимодействие с человеком помогает агентам согласовывать свои действия с человеческими ценностями и избегать ошибок.
Примеры методов:
- Внутренний монолог (Inner Monologue):
Этот метод собирает описания сцены и интегрирует обратную связь от человека в процесс планирования агента. Таким образом, действия агента выравниваются с ожиданиями человека, обеспечивая более точное соответствие запросам.
Обратная связь от модели (Model Feedback)
Внутренняя обратная связь, получаемая от предварительно обученных моделей, позволяет агентам самостоятельно проверять свои цепочки рассуждений и корректировать действия.
Примеры методов:
- SelfCheck:
Это метод пошаговой проверки, работающий в режиме zero-shot. SelfCheck позволяет агентам самостоятельно выявлять ошибки в цепочках рассуждений, проверяя логическую корректность каждого шага на основе предыдущих. Результаты анализа используются для оценки правильности действий. - Reflexion:
Агенты анализируют результаты выполнения задач, записывая сигналы обратной связи в буфер эпизодической памяти. Это улучшает долгосрочное обучение и исправление ошибок за счет внутренней рефлексии, позволяя агенту адаптироваться и совершенствоваться с течением времени.
Проблемы и направления исследований в области рассуждения и планирования
Хотя модуль рассуждения и планирования значительно расширяет функциональность агентов, существуют важные вызовы, которые требуют решения:
1. Масштабируемость и вычислительные затраты:
Многопутевое рассуждение, особенно с использованием сложных методов, таких как Tree of Thoughts (ToT) или Reasoning via Planning (RAP), требует значительных вычислительных ресурсов. Создание более эффективных и масштабируемых подходов остается одной из ключевых задач исследований.
2. Сложность интеграции обратной связи:
Эффективная интеграция обратной связи, особенно из динамических или многосоставных источников, представляет сложную задачу. Необходимо разрабатывать методы, которые будут приоритизировать наиболее релевантные сигналы, избегая информационной перегрузки и поддерживая высокую производительность агентов.
3. Смещение в процессе принятия решений:
Смещение может возникать, если агенты отдают приоритет определенным источникам обратной связи или путям решения, что может привести к искаженным или неоптимальным решениям. Использование техник коррекции смещения и разнообразных источников обратной связи является важным шагом для обеспечения сбалансированного планирования.
Действия
Модуль действий является завершающим этапом процесса принятия решений ИИ-агентом. Он отвечает за выполнение действий, основанных на планировании и памяти, для взаимодействия с окружающей средой и достижения результатов.
Подкатегории модуля действий:
- Цели действий (Action Goal):
Агенты могут выполнять действия с различными целями. Примеры: - Выполнение задач: Достижение конкретных целей, например, создание инструментов в Minecraft или выполнение функций в разработке программного обеспечения.
- Коммуникация: Взаимодействие с людьми или другими агентами для обмена информацией. Например, агенты ChatDev обмениваются данными для завершения программных задач.
- Исследование окружающей среды: Изучение новых областей для получения информации, как это делает Voyager, совершенствуя навыки через эксперименты.
- Производство действий (Action Production):
Агенты создают действия, опираясь на память или следуя планам. Примеры: - Действия, основанные на памяти: Агенты используют сохранённую информацию для принятия решений. Например, Generative Agents извлекают соответствующие воспоминания перед каждым действием.
- Действия, основанные на планах: Агенты выполняют заранее составленные планы, пока не столкнутся с сигналами о сбое. Например, агенты DEPS следуют своим планам до их завершения.
- Пространство действий (Action Space):
Пространство действий включает два основных направления: использование внутренних знаний и внешних инструментов. Примеры: - Внутренние способности: Многие агенты используют встроенные возможности LLM для выполнения задач, опираясь на предварительно обученные знания.
- Внешние инструменты: Агенты могут использовать API, базы данных или внешние модели для выполнения сложных задач. Примеры инструментов:
- API:
- HuggingGPT: Использует модели HuggingFace для выполнения сложных задач.
- ToolFormer: Преобразует инструменты в новые форматы с помощью LLM.
- RestGPT: Подключает агентов к RESTful API для реальных приложений.
Базы данных и базы знаний
В системах ИИ базы данных и базы знаний играют ключевую роль, предоставляя доступ к специфической информации и поддерживая сложное рассуждение.
Примеры использования:
- ChatDB:
Использует SQL-запросы для извлечения информации из доменных баз данных. Такой подход позволяет агентам быстро получать доступ к структурированным данным, необходимым для выполнения задач. - MRKL (Modular Reasoning, Knowledge, and Language):
Интегрирует экспертные системы и планировщики, чтобы поддерживать сложное рассуждение. MRKL может сочетать знания из нескольких источников, чтобы обеспечить более глубокое понимание и точное выполнение задач, требующих сложной логики.
Внешние модели
Агенты могут использовать внешние модели, выходящие за рамки API, для выполнения специализированных задач.
Примеры:
- ChemCrow:
Применяет несколько моделей для разработки лекарственных средств и проектирования материалов. - MemoryBank:
Использует две модели для улучшения извлечения текста, обеспечивая более точное сопоставление данных и результатов.
Влияние действий (Action Impact)
Действия агентов классифицируются по их результату:
- Изменение окружающей среды:
Действия могут напрямую менять окружающий мир. Например, в Voyager и GITM агенты собирают ресурсы или строят структуры. При этом изменения фиксируются: вырубка дерева приводит к его исчезновению из среды и появлению в инвентаре. - Воздействие на себя:
Действия могут обновлять память агента, формировать новые планы или добавлять знания. Например, Generative Agents используют "потоки памяти" для интеграции новых данных. - Цепочки задач:
Одни действия инициируют другие. Например, в Voyager построение структуры начинается только после сбора необходимых ресурсов.
Расширение пространства действий
Эффективные агенты требуют не только надежной архитектуры, но и набора навыков и опыта. Эти "возможности" можно рассматривать как программное обеспечение, которое повышает эффективность агента в разных сценариях.
Получение навыков с дообучением (Capability Acquisition with Fine-tuning):
Дообучение улучшает производительность агента за счет настройки параметров модели на специализированных наборах данных, которые могут быть:
- Аннотированы людьми:
- Пример: RET-LLM дообучается на парах "естественный язык-триплеты", аннотированных людьми, для преобразования текста в структурированную память.
- Пример: EduChat дообучается на данных, созданных экспертами, для образовательных целей, таких как обучение, оценка эссе и эмоциональная поддержка.
- Сгенерированы LLM:
Использование LLM для генерации данных сокращает затраты на их создание. - Пример: ToolBench генерирует инструкции для реального использования API, что позволяет дообучить LLaMA для выполнения задач с инструментами.
- Основаны на реальных данных:
Наборы данных собираются из реальных приложений.
Получение навыков без дообучения (Capability Acquisition Without Fine-tuning):
В случаях, когда дообучение невозможно, навыки могут быть приобретены через инженерное проектирование подсказок или механизмов:
- Инженерия подсказок (Prompt Engineering):
Тщательная разработка подсказок направляет поведение LLM. - Пример: Chain of Thought (CoT): Включает промежуточные шаги рассуждений для решения сложных задач.
- Пример: SocialAGI: Использует подсказки, учитывающие самоосознание, чтобы согласовать беседы с состояниями пользователя.
- Пример: Retroformer: Включает размышления о прошлых ошибках в подсказки, улучшая будущие решения.
- Инженерия механизмов (Mechanism Engineering):
Включает специализированные правила и механизмы для улучшения возможностей агента. Основные стратегии: - Использование проб и ошибок:
- DEPS: Интегрирует описания процесса, объяснения ошибок и модуль выбора целей для оптимизации и улучшения планирования.
- RoCo: Адаптирует планы многоагентного взаимодействия на основе проверки среды (например, обнаружения столкновений).
- Краудсорсинг:
- Дебаты: Агенты сотрудничают, пересматривают решения и достигают консенсуса, используя коллективный разум.
- Накопление опыта:
- GITM: Использует текстовую память для хранения знаний в логичном и человекоориентированном формате, улучшая генерализацию и адаптацию.
- Voyager: Улучшает выполнение навыков через самооценку и обратную связь.
- Саморазвитие:
- LMA3: Поддерживает механизмы переформулирования целей, их разбиения на подцели и оценки вознаграждений, что позволяет агентам приобретать широкий спектр навыков в текстовых средах без заранее заданных представлений целей.
Сравнение подходов: дообучение и инженерия подсказок
- Дообучение (Fine-tuning):
- Преимущества:
- Значительное улучшение производительности для конкретных задач.
- Глубокая адаптация модели к специализированным данным.
- Недостатки:
- Инженерия подсказок и механизмов (Prompt & Mechanism Engineering):
Многоагентная архитектура (Multi-Agent Architecture)
Многоагентные архитектуры распределяют задачи между несколькими агентами, каждый из которых специализируется на своей части проблемы.
Преимущества:
- Повышенная надежность и адаптивность:
- Агенты могут сотрудничать, предоставляя обратную связь друг другу.
- Динамическая адаптация позволяет добавлять или удалять агентов в зависимости от потребностей задачи.
- Распараллеливание работы:
Проблемы:
Организационные структуры в многоагентных системах
Горизонтальная организация:
- Описание:
Все агенты равноправно обмениваются своими решениями, которые затем комбинируются с использованием функций, таких как суммирование или ансамблевые техники. - Сценарии использования:
- Преимущество:
Вертикальная организация:
- Описание:
- Один агент, называемый "решателем" (solver), предлагает начальное решение, а другие агенты предоставляют обратную связь.
- В другой вариации один агент выступает как "менеджер," координирующий работу остальных.
- Сценарии использования:
- Преимущество:
Гибридная организация (Hybrid Organization)
Гибридный подход сочетает вертикальные и горизонтальные структуры, как это реализовано в работе DyLAN.
Структура DyLAN:
- Горизонтальная кооперация:
- Агенты организованы в многоуровневую сеть с прямой передачей данных.
- Они взаимодействуют на равных внутри каждого слоя и обмениваются сообщениями между временными шагами.
- Агенты могут работать независимо, оставаясь нейтральными к конкретным задачам.
- Вертикальная иерархия:
- Ranker Model и система оценки важности агентов (Agent Importance Score) добавляют иерархический уровень.
- Ranker динамически оценивает агентов и выбирает наиболее релевантных (top-k) для продолжения взаимодействия.
- Агенты с низкой производительностью отключаются, а высокоэффективные влияют на выполнение задач и состав команды.
Преимущества гибридной структуры:
- Гибкость: Объединяет преимущества горизонтальной кооперации (независимость и универсальность) и вертикальной иерархии (динамическая адаптация и приоритизация).
- Эффективность: Сильные агенты усиливают коллективный результат, в то время как менее производительные исключаются.
Кооперативные многоагентные системы (Cooperative Multi-Agent Frameworks)
Кооперативные многоагентные системы обеспечивают взаимодействие между агентами через обмен информацией и согласование действий, что повышает общую эффективность.
Основные особенности:
- Совместная работа: Агенты делятся данными, чтобы максимизировать производительность.
- Командная синергия: Каждая роль агента усиливает другие, создавая дополняющие способности.
- Общие цели: Все агенты работают для достижения оптимального результата.
Примеры сценариев использования:
- Управление ресурсами: Распределение задач между агентами в реальном времени.
- Решение многозадачных проблем: Например, в логистике или медицинской диагностике, где требуются различные подходы.
Типы кооперативных взаимодействий в многоагентных системах
Кооперативное взаимодействие агентов делится на два ключевых типа:
1. Неструктурированное взаимодействие (Disordered Cooperation):
В этом подходе несколько агентов взаимодействуют свободно, без фиксированной последовательности или рабочего процесса.
Особенности:
- Подходит для:
- Механика:
- Агенты обмениваются мнениями и предложениями, обрабатывают входные данные друг друга и передают информацию далее, что способствует итеративному улучшению решений.
- Пример: ChatLLM, где агенты моделируются как узлы в нейронной сети, взаимодействующие для итерационного уточнения результата.
Проблемы:
- Большой объем обратной связи может перегружать систему, приводя к хаосу и потере фокуса.
- Трудности в управлении потоком информации и выделении ключевых инсайтов.
Решения:
- Введение координирующего агента, который интегрирует входные данные и организует ответы.
- Использование механизмов голосования для достижения консенсуса.
- Требуются продвинутые стратегии управления информацией для эффективного извлечения полезных данных.
2. Структурированное взаимодействие (Ordered Cooperation):
Этот подход предполагает последовательное взаимодействие агентов по заданному рабочему процессу.
Особенности:
- Подходит для:
- Механика:
- Агенты обрабатывают только выходные данные от предыдущих агентов, что создает эффективный и упрощенный канал коммуникации.
- Пример: CAMEL, где один агент выступает как пользователь, задающий инструкции, а другой — как ассистент, предлагающий решения.
- Пример: MetaGPT, использующий методологию водопада (waterfall model), где каждый этап стандартизирован в виде инженерных документов.
Преимущества:
- Минимизация путаницы благодаря строгой последовательности шагов.
- Быстрое выполнение задач из-за упрощенного взаимодействия.
Проблемы:
- Даже при строгом порядке небольшие ошибки (например, галлюцинации) могут увеличиваться, приводя к некорректным результатам.
- Требуется внедрение дополнительных механизмов, таких как перекрестная проверка (cross-validation) или своевременное вмешательство человека, для предотвращения таких ошибок.
Adversarial Multi-Agent Frameworks
Адверсариальные многоагентные системы вводят элемент конкуренции, вдохновленный теорией игр. Этот подход позволяет агентам бросать вызовы друг другу, способствуя адаптации, совершенствованию их поведения и повышению общей эффективности.
Основные особенности:
- Повышение адаптивности: Конкуренция стимулирует агентов к критическому самоанализу и улучшению.
- Пример: AlphaGo Zero продемонстрировал значительные достижения, играя против самого себя, улучшая стратегии на каждой итерации.
- Адверсариальные взаимодействия в LLM:
- Например, ChatEval использует несколько агентов, чтобы критиковать выводы друг друга, создавая уровень проверки, сравнимый с человеческим ревью.
- Дебаты между агентами позволяют выявить ошибки в рассуждениях и выработать более продуманные ответы.
Проблемы:
- Высокие вычислительные затраты: Адверсариальные взаимодействия требуют значительных ресурсов.
- Риск ошибок: Без надлежащих механизмов контроля конкуренция может привести к усилению мелких ошибок.
Emergent Behaviors in Multi-Agent Systems
Исследования, такие как AgentVerse, демонстрируют, что многоагентные системы могут проявлять неожиданные ("эмерджентные") модели поведения:
1. Добровольческие поведения (Volunteer Behaviors):
Агенты готовы выполнять дополнительные задачи, выходящие за рамки их первоначального назначения.
2. Конформность (Conformity Behaviors):
Агенты корректируют свои действия, чтобы соответствовать общим целям группы.
- Пример: Если агент отклоняется от задачи, другие агенты предоставляют сигналы для его перенастройки.
- Эффект: Усиление стабильности задач и повышение согласованности.
3. Деструктивные поведения (Destructive Behaviors):
Иногда агенты прибегают к агрессивным или разрушительным действиям для выполнения задач.
- Пример: Разрушение библиотеки в Minecraft для получения книг вместо их создания.
- Риски: Такие действия могут подрывать стабильность группы и вызывать проблемы в реальных приложениях.
Benchmarking and Evaluation
Оценка производительности многоагентных систем и агентов на основе LLM осуществляется с использованием различных бенчмарков, которые измеряют их навыки в таких областях, как рассуждение, сотрудничество, безопасность и адаптивность.
Симуляционные среды:
- ALFWorld, IGLU, Minecraft: Оценка навыков решения проблем и взаимодействия.
- Tachikuma: Анализ способностей агентов к пониманию сложных взаимодействий между объектами и персонажами в TRPG (настольные ролевые игры).
- AgentBench: Первый систематический бенчмарк для тестирования производительности LLM в реальных сценариях.
Социальные способности:
- SocKET: Тестирует понимание эмоций, юмора и социальных сигналов.
- EmotionBench: Сравнивает эмоциональные реакции агентов и людей в более чем 400 сценариях.
- RocoBench: Изучает стратегии сотрудничества и координации в робототехнике.
Инструменты и узконаправленные задачи:
- ToolBench: Тестирует способности агентов использовать инструменты.
- GentBench: Изучает, как агенты решают сложные задачи, используя инструменты, с акцентом на безопасность и эффективность.
- WebShop: Проверяет способность агентов искать и находить товары среди 1,18 млн реальных позиций.
- Mobile-Env: Тестирует многозадачные взаимодействия, включая планирование и использование памяти.
Комплексные и специализированные бенчмарки:
- WebArena: Тестирует способность агентов выполнять сложные задачи в многодоменных средах.
- ClemBench: Изучает навыки принятия решений в игровых сценариях.
- PEB: Проверяет производительность агентов в задачах тестирования безопасности.
- E2E: Тестирует чат-ботов на точность и полезность их ответов.
Gaming Applications
Игры предоставляют идеальные условия для тестирования и обучения агентов благодаря своей сложности, разнообразию и воспроизводимости.
Примеры:
Подходы:
- Агенты RL: Максимизируют вознаграждение через поведенческие стратегии.
- Агенты LLM: Сосредотачиваются на когнитивных способностях, стремясь к более глубокому пониманию игрового процесса.
Гипотеза воплощенного разума (Embodied Cognition):
- Развитие интеллекта происходит через наблюдение и взаимодействие.
- Игры, объединяющие физический, социальный и лингвистический опыт, помогают моделировать человеческий интеллект.
Восприятие агента в видеоиграх
Модуль восприятия играет ключевую роль в понимании агентом состояния игры. Существует три основных способа интеграции модуля восприятия в игровой процесс:
Доступ к переменным состояния
Некоторые игровые среды предоставляют внутренние API для получения доступа к символическим переменным состояния (например, вид покемона, его характеристики или доступные движения). Это исключает необходимость в визуальной информации.
Внешний визуальный энкодер
Когда доступ к данным состояния через API отсутствует, визуальные энкодеры помогают преобразовывать визуальные входные данные в текст.
- Инструменты:
- CLIP распознаёт объекты и создаёт описания, позволяя ИИ интерпретировать игровые среды.
- MineCLIP (Minecraft) и ClipCap (создаёт текстовые последовательности для использования в более крупных языковых моделях, таких как GPT-2).
- Ограничения:
Мультимодальные языковые модели (MLLMs)
MLLM, такие как GPT-4V, интегрируют визуальные и текстовые данные в единую модель, что повышает универсальность.
Примеры использования агентов в играх
Cradle (Приключения)
Приключенческие игры требуют от игроков решения головоломок, исследования окружающего мира и взаимодействия с персонажами.
- Вызовы для LLM-агентов:
- Контекстное понимание: Агентам сложно интерпретировать сложные сюжеты, мотивации персонажей и внутриигровой лор.
- Логика головоломок: Требуется креативное решение проблем, распознавание шаблонов и скрытых связей, что выходит за рамки текстового анализа LLM.
- Исследование и визуальное восприятие: Открытые миры требуют пространственного мышления и визуальной интерпретации.
- Управление инвентарём: Отслеживание предметов, прогресса и взаимодействий со временем нагружает память и планирование.
- Решение:
Cradle работает над универсальностью с помощью General Computer Control (GCC), где агенты получают входные данные с экрана и аудио, а выводят действия с клавиатуры и мыши.
CICERO (Коммуникация)
Игры с акцентом на общение (например, Diplomacy) включают психологические манипуляции, стратегии, сотрудничество и обман.
- Особенности:
- Требуется интерпретируемая коммуникация, чтобы избежать путаницы.
- Агент должен уметь интерпретировать обман и поддерживать убеждения о целях других игроков.
- Пример:
CICERO — ИИ от Meta AI для Diplomacy, объединяющий стратегическое мышление с обработкой естественного языка.
PokéLLMon (Соревнования)
Соревновательные игры являются отличными эталонами для оценки производительности агентов в рассуждении и планировании, так как они регулируются строгими правилами, а процент побед можно сравнивать с человеческими игроками.
Примеры соревновательных фреймворков:
- Large Language Models Play StarCraft II:
В исследовании Benchmarks and A Chain of Summarization Approach агент на основе LLM играет текстовую версию StarCraft II против встроенного ИИ. В качестве модуля рассуждения используется цепочка суммаризации (chain-of-summarization). - PokéLLMon:
Это первый агент на основе LLM, достигший производительности на уровне человека в тактической игре Pokémon.
Достижения PokéLLMon:
- Показатели:
- 49% побед в рейтинговых матчах (Ladder competitions).
- 56% побед в приглашённых сражениях (Invite battles).
- Особенности:
Модульный подход:
- Конвертация логов состояния сервера в текстовые описания:
- Тексты содержат ключевую информацию:
- Статус команды игрока.
- Состояние команды противника (в рамках доступного наблюдения).
- Условия на поле (например, погода или наличие ловушек).
- Лог действий за предыдущие ходы.
- Такой модульный текстовый подход позволяет агенту воспринимать изменяющееся состояние игры как последовательность структурированных текстовых входных данных.
- Преимущества:
PokéLLMon демонстрирует, как применение текстовых описаний игрового состояния и обогащённой генерации позволяет преодолеть ограничения традиционных подходов в конкурентных играх.
Кроме того, агент полагается на четыре типа обратной связи для обучения с подкреплением в контексте выполнения задачи: изменения показателя HP, эффективность применяемых атак, грубую оценку скорости для определения порядка хода и статусные эффекты атак. Эта обратная связь позволяет агенту уточнять свои планы и избегать зацикливания, при котором он многократно использует неэффективные атаки.
PokéLLMon также использует генерацию, обогащённую знаниями (knowledge-augmented generation), чтобы подключать внешние источники, такие как Bulbapedia. Эти знания включают преимущества типов и эффекты атак, что позволяет агенту применять специальные атаки в подходящее время.
Наконец, авторы провели оценку методов Chain of Thought (CoT), Self-Consistency и Tree of Thoughts (ToT) для повышения стабильности в генерации действий. Анализ показал, что метод Self-Consistency значительно повышает процент побед.
ProAgent (Сотрудничество)
Игры на сотрудничество требуют от игроков эффективного взаимодействия, что достигается через понимание намерений партнёра и прогнозирование его действий на основе истории предыдущих взаимодействий. Это подразумевает два типа сотрудничества:
Пример тестовой среды:
Игра Overcooked, где игроки работают вместе, чтобы готовить блюда в условиях нехватки времени и динамической среды.
В упрощённой версии игры (Overcooked-AI) ProAgent демонстрирует способность адаптивно взаимодействовать с партнёрами и окружением, используя неявное сотрудничество.
Процесс работы ProAgent состоит из пяти этапов:
- Библиотека знаний и привязка к состоянию (Knowledge Library and State Grounding):
Сбор специфичных для задачи знаний и их преобразование в текстовые описания. - Планирование навыков (Skill Planning):
Позволяет агенту предсказывать намерения партнёра и разрабатывать соответствующие действия. - Коррекция убеждений (Belief Correction):
Обеспечивает уточнение понимания поведения партнёра со временем. - Валидация навыков и выполнение действий (Skill Validation and Action Execution):
Проверяет эффективность выбранных действий с помощью итеративного планирования и проверки. - Хранение памяти (Memory Storage):
Логирует взаимодействия и результаты для улучшения будущих решений.
Коррекция убеждений (Belief Correction):
Механизм коррекции убеждений особенно интересен, так как он позволяет агенту постоянно обновлять своё понимание намерений партнёра по мере прогресса взаимодействия.
- Пример:
Если агент изначально неправильно интерпретирует цели своего партнёра, коррекция убеждений помогает вносить итеративные изменения, уточняя прогнозы и выравнивая действия с наблюдаемым поведением. - Преимущества:
Кроме того, агент опирается на четыре типа обратной связи для обучения с подкреплением в контексте выполнения задач: изменения в уровне HP, эффективность применяемых атак, приблизительная оценка скорости для определения порядка хода и статусные эффекты атак. Эта обратная связь позволяет агенту корректировать свои планы и избегать зацикливания, при котором он многократно использует неэффективные атаки.
PokéLLMon также использует генерацию, обогащённую знаниями (knowledge-augmented generation), для подключения внешних источников информации, таких как Bulbapedia. Эти знания включают преимущества типов и эффекты атак, что позволяет агенту использовать специальные атаки в подходящий момент.
Наконец, авторы провели оценку методов Chain of Thought (CoT), Self-Consistency и Tree of Thoughts (ToT) для повышения стабильности генерации действий. Результаты анализа показали, что метод Self-Consistency значительно увеличивает процент побед.
ProAgent (Сотрудничество)
Игры, основанные на сотрудничестве, требуют от игроков эффективного взаимодействия, включая понимание намерений партнёра и предсказание его дальнейших действий на основе истории предыдущих взаимодействий. Это достигается двумя формами сотрудничества:
- Явное сотрудничество:
Включает прямую коммуникацию между агентами для обмена информацией до выполнения действий. - Неявное сотрудничество:
Предполагает моделирование стратегии партнёра внутри системы, без прямого взаимодействия, для предугадывания его действий.
Пример тестовой среды:
Игра Overcooked, где игроки совместно готовят блюда в условиях нехватки времени и динамичной среды.
В упрощённой версии этой игры (Overcooked-AI) ProAgent демонстрирует способность адаптироваться к партнёрам и окружающей среде, используя неявное сотрудничество.
Процесс работы ProAgent:
- Библиотека знаний и привязка к состоянию (Knowledge Library and State Grounding):
Сбор специфичных знаний о задаче и их преобразование в текстовые описания. - Планирование навыков (Skill Planning):
Позволяет агенту предсказывать намерения партнёра и разрабатывать подходящие действия. - Коррекция убеждений (Belief Correction):
Уточняет понимание поведения партнёра с течением времени. - Валидация навыков и выполнение действий (Skill Validation and Action Execution):
Гарантирует эффективность выбранных действий через итеративное планирование и проверку. - Хранение памяти (Memory Storage):
Записывает взаимодействия и результаты для улучшения будущих решений.
Коррекция убеждений:
Механизм коррекции убеждений является ключевым компонентом. Он обеспечивает постоянное обновление понимания агентом намерений партнёра по мере взаимодействия.
- Решение проблемы:
- Если агент изначально неверно интерпретирует цели своего партнёра, коррекция убеждений позволяет вносить итеративные изменения, уточняя прогнозы и согласовывая их с наблюдаемым поведением.
- Результат:
ProAgent превзошёл пять методов самоигры и обучения на основе популяции.
Генеративные агенты (Симуляция)
Как виртуальные персонажи могут отражать глубину и сложность человеческого поведения?
На протяжении десятилетий исследователи стремились создать правдоподобных цифровых агентов — прокси-системы, которые действуют, реагируют и взаимодействуют таким образом, чтобы это казалось естественным. От первых проектов, таких как The Sims, до современных достижений в области взаимодействия человека и компьютера, задача создания таких агентов остаётся крайне сложной из-за непредсказуемого характера человеческих действий.
Недавние достижения в области больших языковых моделей (LLM) открыли новые возможности. Однако для создания агентов, которые могут запоминать, адаптироваться и вести себя согласованно в течение длительного времени, требуются инновационные архитектурные решения.
Истоки исследований
Корни этой цели лежат в ранних системах ИИ, таких как:
- SHRDLU и ELIZA:
Эти системы исследовали взаимодействие через естественный язык, но сталкивались с проблемами последовательности и сложности. - Методы на основе правил:
- Популярные в играх, таких как Mass Effect и The Sims, использовали конечные автоматы и деревья поведения.
- Недостатки: Эти методы требовали обширного ручного скриптования, что ограничивало их гибкость.
- Обучение с подкреплением:
Агенты на основе LLM
Агенты на основе LLM стремятся преодолеть эти ограничения, сочетая возможности языковых моделей с многоуровневой архитектурой.
Преимущества архитектуры:
- Хранение долгосрочной памяти:
Агенты могут запоминать события и использовать их для формирования будущего поведения. - Рефлексия на основе прошлого опыта:
Агенты могут анализировать прошлые события, извлекать значимые инсайты и применять их в новых ситуациях. - Динамическое извлечение релевантной информации:
Это позволяет сохранять согласованность взаимодействий и адаптироваться к неожиданным изменениям в окружении. - Адаптивное поведение:
Агенты могут корректировать своё поведение на основе изменений в среде.
Исследование Generative Agents
В статье Generative Agents: Interactive Simulacra of Human Behavior исследователи показали, что агенты на основе LLM могут не только имитировать реалистичное человеческое поведение в виртуальной песочнице, но и демонстрировать эмерджентные способности.
Результаты эксперимента:
- Диффузия информации:
Агенты распространяли знания друг другу, делясь информацией. - Формирование сложных социальных связей:
Агенты демонстрировали способность к установлению социальных отношений, напоминающих человеческие. - Координация действий:
Агенты координировали свои действия для достижения общих целей.
Эти результаты подчеркивают потенциал LLM для создания сложных, правдоподобных цифровых агентов, способных к взаимодействию, адаптации и долговременному поведению.
Архитектура, описанная в статье, интегрирует восприятие, извлечение информации из памяти, рефлексию, планирование и реакцию.
Модуль памяти
Модуль памяти обрабатывает поток наблюдений на естественном языке, сделанных агентом, оценивая их по трем критериям:
Эти критерии формируют оценку, которая нормализуется и используется при извлечении данных. Кроме того, учитываются рефлексии — высокоуровневые абстрактные мысли, сформированные на основе трёх наиболее значимых вопросов агента, которые определяются из последних 100 записей памяти. Рефлексии дают агенту более широкие инсайты в отношении отношений и планов.
Модуль рассуждения и планирования
Модуль рассуждения и планирования функционирует аналогично известным циклам "план-действие", которые обсуждаются на протяжении всей статьи.
Исследование процесса диффузии информации
Исследование сосредоточилось на том, как распространялась информация о вечеринке на День святого Валентина и выборах мэра во время симуляции.
Социальные связи:
Агенты сформировали новые социальные связи, увеличив плотность сети с 0.167 до 0.74, при этом только 1.3% взаимодействий включали ложную информацию.
Координация агентов:
- Для вечеринки хозяин организовал приглашения, материалы и украшения.
- На День святого Валентина из 12 приглашённых агентов пять посетили мероприятие.
- Семь агентов, которые не пришли, объяснили своё отсутствие личными конфликтами или недостатком мотивации, несмотря на первоначальный интерес.
Выводы симуляции:
Эта симуляция демонстрирует, как обмен информацией и социальная координация могут возникать естественным образом в сообществах агентов без внешнего вмешательства.
Voyager (Создание предметов и исследование)
Игры на создание предметов и исследование обычно объединяют процедурно генерируемые миры с системами крафта, основанными на ресурсах, а иногда и элементами выживания.
Minecraft является наиболее изученной игровой средой для агентов, идеально воплощающей этот концепт.
Цели агентов в Minecraft:
- Реализация инструкций по созданию предметов.
- Автономное исследование на основе самостоятельно определённых целей.
Крафтинг:
Задачи по созданию предметов включают:
- Сбор различных материалов по всей карте.
- Понимание доступных рецептов.
- Создание и выполнение последовательных шагов.
Многие проекты агентов для крафта полагаются на планировщики LLM и декомпозицию задач с обратной связью. Примеры таких проектов:
Автономное исследование:
Агентные фреймворки используют обучение с развитием (curriculum learning) для определения подходящих задач, а LLM выступают в роли генераторов целей.
Пример:
Voyager — агент в Minecraft с непрерывным обучением.
Ключевые компоненты Voyager:
- Автоматическая программа обучения (Automatic Curriculum):
Обеспечивает постепенное усложнение задач. - Библиотека навыков (Skill Library):
Включает исполняемый код для выполнения задач. - Механизм итеративного запроса (Iterative Prompting Mechanism):
Учитывает обратную связь, ошибки выполнения и самопроверку.
Voyager демонстрирует потенциал агентов для комбинирования крафта, исследования и автономного обучения.
Автоматическая программа обучения (automatic curriculum) использует внутренние знания LLM для генерации целей, которые учитывают текущее состояние агента и прогресс в исследовании. Это приводит к созданию постепенно усложняющегося списка задач, которые агент должен выполнить.
В рамках автоматической программы обучения агент создаёт код, который является обобщённым и модульным для выполнения конкретных навыков, таких как «создать железную кирку». Затем агент использует этот код для попытки достижения цели и передаёт обратную связь из окружения обратно в LLM, используя метод подсказок в формате цепочки рассуждений (chain-of-thought prompting), чтобы проверить успех и внести изменения при необходимости. Если цель достигнута, код сохраняется в библиотеке навыков для последующего использования.
Результаты работы фреймворка Voyager:
- Эффективность освоения технологического дерева:
- Открытие уровней дерева, камня и железа происходило в 15.3x, 8.5x и 6.4x быстрее, чем в базовых подходах соответственно.
- Voyager оказался единственным фреймворком в сравнительном анализе, который достиг уровня алмазов.
- Исследование мира:
Фреймворк Voyager демонстрирует выдающуюся производительность в задачах освоения ресурсов, исследования мира и накопления навыков, подтверждая потенциал LLM в реализации агентов с длительным обучением и сложным взаимодействием с окружением.
Спекулятивные применения агентов в игровой индустрии
На основе проведённых исследований можно предвидеть множество возможных будущих применений агентов в играх. Ниже представлен неполный список идей:
Геймплей и стратегия, управляемые агентами
- Игры-симуляции с несколькими агентами:
ИИ-управляемые персонажи автономно живут повседневной жизнью, имея мотивации и цели, что приводит к эмерджентному игровому процессу. - Агентные юниты в стратегических играх:
Умные агенты в рамках фракций или юнитов адаптируются к окружению и тактике врага, автономно принимая тактические решения в рамках заданных игроком целей. - Арены для обучения ИИ:
Игроки проектируют и обучают ИИ-агентов для выполнения задач, таких как выживание, бой или исследование, используя обучение с подкреплением или имитационное обучение.
ИИ-управляемые NPC и динамика миров
- ИИ-управляемые NPC в открытых мирах:
NPC, работающие на LLM, управляют экономикой, политикой и социальными процессами, формируя погружающиеся и изменяющиеся миры. - Реалистичные диалоги NPC:
Контекстно-осведомленные, естественные беседы и построение отношений с игроками улучшают социальное взаимодействие в игре. - Автономные виртуальные экосистемы:
ИИ создаёт живые виртуальные миры с развивающимися популяциями, экономикой и экосистемами, которые реагируют на действия игрока, даже когда игра работает офлайн. - Управление динамическими событиями:
Агенты организуют события и сюрпризы в реальном времени для онлайн-игр или игр с живым обслуживанием, повышая вовлечённость игроков.
Динамическое повествование и дизайн сюжета
- Адаптивные игровые мастера:
Агенты LLM создают персонализированные истории, задания и импровизированные вызовы для ролевых игр. - Персонализированное повествование:
Агенты генерируют адаптивный лор и истории, которые реагируют на выбор игрока, предоставляя практически бесконечную возможность для перепрохождения.
Поддержка и сопровождение игроков
- Компаньоны и помощники игроков:
Встроенные советники или спутники предоставляют контекстные подсказки, отслеживают цели и улучшают погружение благодаря интерактивным персонажам. - Совместное решение задач:
Агенты выступают как товарищи по команде или соперники в головоломках или детективных играх, добавляя глубину благодаря различным стилям мышления. - Эмоционально отзывчивый ИИ:
Агенты реагируют на эмоции игрока, способствуя созданию эмпатичных или поддерживающих взаимодействий в сюжетных или терапевтических играх.
Образование и творчество
- ИИ-конкуренты и тренеры:
Продвинутые оппоненты в киберспорте и симуляциях адаптируются к стратегиям игрока, способствуя развитию навыков. - Образовательные и обучающие игры:
Адаптивные агенты выступают в роли интерактивных наставников, подстраиваясь под уровень навыков для персонализированного обучения. - Создание модов и контента:
Агенты на основе LLM помогают создавать игровой контент по естественным языковым запросам, демократизируя модификацию и дизайн.
Применения агентов в криптовалюте
Архитектура кошельков, управляемых агентами
Агенты, контролирующие криптокошельки, нуждаются в специфических механизмах для управления ключами, взаимодействия с блокчейн-приложениями и обеспечения безопасности.
- Типы кошельков:
- EOAs (Externally Owned Accounts): традиционные кошельки с ручным управлением ключами.
- Кошельки на смарт-контрактах: более автономны, благодаря мультиподписным механизмам, пороговому подписанию и протоколам, таким как ERC-4337, которые позволяют агентам использовать смарт-аккаунты с запрограммированными разрешениями.
- Пример:
Исследования, такие как AI Agents That Can Bank Themselves Using Blockchains, демонстрируют использование API транзакций для агентов, которые отправляют и получают запросы на транзакции. - Проблемы:
Основная сложность — управление приватным ключом. Возможные решения включают Multi-Party Computation (MPC) и Trusted Execution Environments (TEE).
Верификация агентских вычислений
Для агентов важно верифицировать их выводы через блокчейн, что делает возможным интеграцию децентрализованных агентов в смарт-контракты.
- Пример:
Использование zero-knowledge proofs для проверки вывода шахматного движка Leela на блокчейне.
Оркестровка агентов в криптовалюте
- Пример:
Naptha — протокол оркестровки агентов с распределённой системой узлов для выполнения задач. - Применение:
Другие применения агентов в криптовалюте
- Децентрализованное приобретение навыков:
Механизмы вознаграждения стимулируют развитие библиотек навыков агентов. - Агенты на рынках предсказаний:
Агенты автономно делают ставки и анализируют рынки, такие как Polymarket. - Делегирование управления агентам:
Использование агентов для голосования в DAO. - Токенизация агентов:
Фракционирование собственности на агента, чтобы пользователи могли делить доходы от его работы. - Выпуск токенов агентами:
Агенты могут автономно выпускать и управлять токенами. - Автономные художники:
Пример: Botto генерирует изображения и использует токенизацию для взаимодействия с сообществом. - Игровые экономические системы:
Агенты в играх собирают ресурсы, торгуют и создают предметы с интеграцией ERC-4337.
Приложения агентов: прогнозирование и ролевые сценарии
Прогнозирование
Одной из особенно интересных областей применения модуля рассуждений и многопользовательских агентных фреймворков является прогнозирование. Прогнозирование — это ключевой компонент в процессе принятия решений, от индивидуальных до государственных. Его можно разделить на два типа:
- Статистическое прогнозирование (например, моделирование временных рядов).
- Судебное прогнозирование, которое опирается на знания о домене, данные, интуицию и контекст.
Традиционно судебное прогнозирование требовало участия человеческих экспертов, что делало процесс дорогим и медленным.
Недавние исследования показывают, что LLM могут обладать встроенными возможностями прогнозирования, которые можно ускорить с помощью информационного поиска, рассуждений и планирования, а также многопользовательских настроек.
Пример: использование LLM для прогнозирования
Исследование Approaching Human-Level Forecasting with Language Models продемонстрировало, как тонко настроенная языковая модель может делать прогнозы и предоставлять объяснения своих рассуждений.
- Результаты без информационного поиска и рассуждений:
Базовые LLM без этих возможностей показали относительно низкую точность, измеряемую с помощью оценок Брайера. - Результаты с использованием внешнего поиска и рассуждений:
Множественная ансамблевая модель
Исследование Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy протестировало 12-модельный ансамбль LLM для прогнозирования бинарных исходов по 31 вопросу.
Эти успехи демонстрируют эффективность ансамблевых методов в улучшении надёжности прогнозов, компенсируя индивидуальные предвзятости моделей.
Ролевые сценарии (Roleplay)
Эта секция в основном опирается на From Persona to Personalization: A Survey on Role-Playing Language Agents.
Современные достижения LLM открывают огромный потенциал для создания агентов, особенно в области ролевого взаимодействия и моделирования человеческого поведения.
- Параметры моделей:
LLM, основанные на миллиардах параметров, выходят за рамки традиционных задач обработки естественного языка, имитируя такие аспекты, как социальный интеллект и восприятие эмоций. - Примеры:
Агенты могут исполнять детализированные роли, например, «Ролевой персонаж Сократ», или симулировать сложные социальные взаимодействия в игровых средах.
Технические аспекты ролевых агентов
- Механизмы памяти:
Агенты сохраняют данные о пользователе и контекст среды, обеспечивая последовательное и персонализированное взаимодействие. - Генерация с расширением извлечений (RAG):
Динамическое извлечение релевантной информации из внешних источников уменьшает ошибки и повышает реализм взаимодействий. - Настройка через подсказки:
Настройка LLM для ролевых сценариев часто осуществляется с помощью нулевого или малого числа примеров (zero-shot/few-shot prompting), поскольку полноценная настройка моделей ограничена. - Диалоговая инженерия:
Адаптация традиционного метода подсказок для ролевых сценариев включает:
Примеры продвинутых фреймворков
- RoleGPT:
- Генерирует наборы инструкций, ориентированных на роль, через извлечение длинных текстов с описанием ролей.
- Использует фильтрацию по уровню уверенности и устранение дублирования для повышения качества данных.
- Character-LLM:
- Симулирует исторических или вымышленных персонажей, таких как Бетховен или Клеопатра.
- Процесс включает реконструкцию опыта через биографические данные, что позволяет воссоздавать сценические сценарии и контекстуально выровненные воспоминания.
- Применяются защитные механизмы для предотвращения галлюцинаций, таких как анахроничные знания.
Эти достижения делают ролевых агентов мощным инструментом для социальных симуляций, персонализированного взаимодействия с пользователями и игровых сценариев.
Применения ролевых языковых агентов (RPLAs)
Ниже приведён краткий, но далеко не полный список возможных применений RPLA:
- Интерактивные NPC в играх:
Создание динамичных, эмоционально интеллектуальных персонажей, которые адаптируются к взаимодействию с игроками для создания захватывающего игрового опыта. - Симуляции исторических личностей:
Воссоздание фигур, таких как Сократ или Клеопатра, для увлекательных образовательных бесед и исследований. - Ассистенты для создания историй:
Помощь писателям, игрокам RPG и создателям контента в разработке богатых сюжетов и диалогов. - Виртуальные представления:
Ролевое исполнение актёров или публичных фигур для интерактивного театра, виртуальных мероприятий или развлечений. - Совместное творчество с ИИ:
Партнёрство с ИИ для генерации инновационных произведений искусства, музыки или историй, вдохновлённых определёнными персонами или темами. - Компаньоны для изучения языка:
Симуляция носителей языка для погружённой и разговорной практики. - Социальные симуляции для исследований:
Моделирование футуристических или спекулятивных обществ для проверки культурных, этических или поведенческих сценариев. - Настраиваемые виртуальные компаньоны:
Создание глубоко персонализированных помощников или компаньонов с уникальными личностями, чертами и воспоминаниями для личного или творческого использования.
Выравнивание ИИ (AI Alignment)
Оценка выравнивания LLM с человеческими ценностями представляет собой сложную задачу из-за многообразия и открытого характера реальных приложений. Создание тщательных тестов выравнивания требует значительных усилий и опыта для разработки детализированных и реалистичных сценариев. Этот процесс занимает много времени, что ограничивает разнообразие тестовых случаев и затрудняет выявление редких рисков.
Кроме того, по мере эволюции LLM статические наборы данных для оценки выравнивания быстро устаревают, что усложняет своевременное обнаружение новых проблем.
Современные методы выравнивания
Большинство усилий по выравниванию ИИ в настоящее время основываются на внешнем надзоре со стороны людей.
- Пример:
Самый известный подход — обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF) от OpenAI.
Автоматизация тестирования выравнивания
Некоторые исследования изучают возможности снижения или устранения человеческого надзора, часто полагаясь на более крупные модели LLM для управления процессом. Появляется также новый подход: использование агентных фреймворков для анализа выравнивания других моделей.
Пример: ALI-Agent
ALI-Agent — агентный фреймворк, разработанный для автоматизации оценки LLM на предмет выравнивания.
- Цель:
Выявление тонких или "длиннохвостовых" рисков выравнивания. - Этапы работы:
- Эмуляция:
- Генерация реалистичных сценариев потенциального несоответствия.
- Использование модулей памяти для извлечения прошлых записей оценок.
- Сценарии передаются целевой LLM, которая оценивается специализированным инструментом.
- Уточнение:
- Модули ALI-Agent:
- Память для хранения прошлых оценок.
- Модуль использования инструментов (например, веб-поиск, специализированные инструменты оценки).
- Модуль действий для рассуждений и уточнения сценариев.
- Результаты:
ALI-Agent эффективно выявляет ранее нераспознанные несоответствия в LLM.
Пример: MATRIX
MATRIX представляет новый подход к самовыравниванию LLM с использованием многопользовательской ролевой игры.
- Особенности:
- "Монополог": одна модель принимает на себя несколько ролей, представляя разные точки зрения.
- Социальный модулятор: управляет правилами взаимодействий и записывает результаты симуляции.
- Процесс:
- LLM создаёт виртуальную симуляционную среду, имитирующую реальные многопользовательские взаимодействия.
- Симуляция используется для тонкой настройки модели, ускоряя её выравнивание с социальными ценностями без внешнего надзора.
- Результаты:
Эти подходы к выравниванию с использованием агентных фреймворков представляют собой шаг вперёд в создании более социально осведомлённых и согласованных с ценностями моделей.
Применение агентных архитектур в управлении, робототехнике и науке
Управление и организации
Организации обычно используют стандартизированные операционные процедуры (Standardized Operating Procedures, SOPs) для эффективного распределения задач и координации.
SOPs:
- Определяют обязанности членов команды.
- Устанавливают стандарты для промежуточных результатов.
- Фиксируют критерии качества, что позволяет выполнять задачи последовательно.
Пример SOPs в IT-компаниях:
- Продуктовые менеджеры следуют SOP для анализа конкуренции на рынке и потребностей пользователей.
- Итогом являются стандартизированные Product Requirements Documents (PRDs), которые направляют процесс разработки.
Этот организационный подход можно эффективно воспроизвести в многоагентных фреймворках.
MetaGPT
Наиболее известный пример — MetaGPT, где профили агентов адаптированы под специализированные роли в организации:
Особенности:
- Агенты получают доступ к инструментам, соответствующим их роли (например, выполнение кода, веб-поиск).
- Используется настройка ReAct для планирования и рассуждения.
- Реализован механизм публикации и подписки (pub-sub) для эффективной межагентной коммуникации.
Результаты:
- Производительность на HumanEval и MBPP составила 81.7% и 82.3% соответственно.
- С учётом обратной связи показатели увеличились до 85.9% и 87.7%.
Робототехника
Агентные архитектуры трансформировали робототехнику, особенно в сложном планировании задач, адаптивном взаимодействии и динамическом реагировании. Комбинация классического планирования и методов обучения позволяет роботам демонстрировать более сложное и обобщённое поведение в различных условиях.
Декодирование с привязкой к реальному миру (Grounded Decoding)
Основной проблемой применения воплощённых агентов, таких как роботы, остаются:
- Недостаток физического опыта.
- Невозможность обрабатывать наблюдения, выходящие за рамки языка.
- Игнорирование специфичных ограничений, таких как безопасность и вознаграждения.
Языковые модели, обученные на данных взаимодействия, обеспечивают ситуативную осведомлённость, но ограничены объёмом тренировочных данных.
- Для преодоления этих ограничений создаются последовательности действий, которые одновременно семантически корректны (согласно LLM) и выполнимы в реальном мире, аналогично вероятностной фильтрации.
Фреймворки в робототехнике
- LLM+P:
- Интерпретирует команды на естественном языке, преобразуя их в структурированные представления, такие как Planning Domain Definition Language (PDDL).
- Классический планировщик генерирует последовательность действий, позволяя роботам точно выполнять сложные команды.
- SayCan:
- Интегрирует обучение с подкреплением и планирование на основе возможностей робота.
- Пример: Задача «принести напиток со стола» включает оценку выполнимости действий, таких как «взять напиток» или «подойти к столу».
- SayPlan:
- Планирует задачи в больших пространствах с использованием трёхмерных графов сцены (3DSG).
- Упрощает сложные графы до подграфов, специфичных для задач, сохраняя пространственный контекст.
- Inner Monologue:
- Постоянный цикл обратной связи позволяет роботу обновлять понимание задачи в реальном времени.
- Подходит для динамичных задач, таких как работа на кухне или перестановка предметов.
- RoCo:
Наука
Исследование Empowering Biomedical Discovery with AI Agents описывает многоагентный фреймворк для научных исследований, объединяющий разнородных агентов, доменно-специфичные инструменты и экспертов.
5 схем сотрудничества агентов в науке:
- Агенты для мозгового штурма.
- Агенты-консультанты.
- Агенты-дискуссанты для научных дебатов.
- Агенты для круглого стола.
- Агенты для автономных лабораторий.
Уровни автономии агентов в науке:
Примеры:
- ChemCrow:
- Использует цепочку рассуждений (Chain-of-Thought) и доступ к ML-инструментам для расширения возможностей действий.
- Пример работы:
- AutoBa:
Эти агентные архитектуры демонстрируют потенциал в преобразовании управления, робототехники и научных исследований, обеспечивая адаптивность, эффективность и новые возможности.
Уровень 2: Совместная работа с учёными
На втором уровне автономии роль ИИ-агента расширяется: он работает совместно с учёными для уточнения гипотез, выполнения ключевых задач проверки гипотез и использования инструментов для научных открытий.
Пример: Coscientist
Coscientist — это интеллектуальный агент, построенный на основе нескольких LLM. Он способен автономно планировать, проектировать и проводить сложные научные эксперименты.
Ключевые особенности:
Демонстрация возможностей Coscientist:
- Планирование химического синтеза на основе открытых данных.
- Поиск и анализ документации по оборудованию для быстрого и эффективного доступа к информации.
- Выполнение высокоуровневых команд в облачной лаборатории с использованием детализированной документации.
- Управление жидкостными манипуляторами через точные низкоуровневые команды.
- Решение сложных научных задач, требующих координации работы различных устройств и источников данных.
- Оптимизация процессов на основе анализа предыдущих экспериментальных данных.
Уровень 3: Экстраполяция гипотез
На третьем уровне ИИ-агент сможет формулировать гипотезы, выходящие за рамки предыдущих исследований.
Этот уровень пока не достигнут, но представляет интересные перспективы.
Будущее агентных систем
Мы становимся свидетелями трансформации в понимании интеллекта, его применения и интеграции в окружающие нас системы. ИИ-агенты, хотя и лишены сознания, раздвигают границы автономии и принятия решений. Они уже работают в сферах, требующих адаптивности, сотрудничества и тонкого понимания контекста.
Ключевые области влияния:
- Управление:
Агенты формируют новые рамки для разработки управленческих процессов. - Наука:
Они ускоряют открытия, действуя как интеллектуальные помощники или самостоятельные исследователи. - Философский аспект:
ИИ-агенты заставляют нас переосмыслить саму концепцию агентности:
Вывод
История развития ИИ-агентов — это не просто технологический прогресс. Это философский взгляд на будущее человечества и на роль, которую интеллектуальные системы сыграют в этом будущем.
- Неизбежность воздействия:
Вопрос больше не в том, окажут ли агенты влияние на наш мир, а в том, насколько осознанно мы будем проектировать их воздействие. - Наш выбор:
Формируя эти системы, мы должны сосредоточиться на максимизации их преимуществ и минимизации рисков, определяя курс, который они зададут для будущего взаимодействия человека и машин.