Ключевые тезисы из AI вайтепейпера

Только что закончил изучать whitepaper от Google об агентных системах на базе искусственного интеллекта.

Вот основные выводы для тех, кто интересуется будущим интеллектуальных систем. 🧵

Сначала: что такое агенты?

Агенты расширяют возможности языковых моделей, добавляя автономность, способность к рассуждению и доступ к инструментам. Они наблюдают, планируют и действуют для достижения целей, выходя за рамки моделей, ориентированных на выполнение одной задачи, чтобы справляться с реальной сложностью.

Когнитивная архитектура агентов включает три основных компонента:

модель рассуждений,
внешние инструменты и
уровень оркестрации для управления состоянием, памятью и планированием целенаправленных задач.

Рассмотрим каждый из них!

ReAct, Chain-of-Thought (CoT) и Tree-of-Thoughts (ToT) – это основные подходы к рассуждению агентов.

ReAct концентрируется на циклах "рассуждение-действие",
CoT добавляет промежуточные шаги,
ToT изучает множество возможных путей к решению.

У каждого подхода есть свои плюсы и минусы.

ReAct

✅ Интеграция рассуждений и действий в единую цепочку.
✅ Повышенная совместимость человека и агента.
❌ Ограниченные возможности для сложных многоэтапных задач.
❌ Менее эффективен для простых задач.

Chain-of-Thought (CoT)

✅ Делит задачи на промежуточные шаги для большей ясности.
✅ Поддерживает гибкие подметоды (например, self-consistency).
❌ Сильно зависит от хорошо составленных подсказок.
❌ Медленнее из-за пошаговой обработки.

Tree-of-Thoughts (ToT)

✅ Изучает разные пути к решению для разработки стратегии.
✅ Расширяет CoT для большей гибкости.
❌ Высокая вычислительная стоимость.
❌ Сложно масштабировать для приложений в реальном времени.

Теперь инструменты!

Агенты расширяют свои возможности благодаря инструментам:

Расширения (Extensions) подключаются к API для выполнения задач в реальном времени.
Функции (Functions) обрабатывают операции на стороне клиента.
Хранилища данных (Data Stores) предоставляют доступ к динамическим, внешним данным.

Эти инструменты позволяют агентам взаимодействовать с окружающим миром за пределами их первоначального обучения.

Уровень оркестрации

Этот уровень помогает агентам обрабатывать входные данные от пользователя, поддерживать контекст и итеративно уточнять свои действия. Этот процесс продолжается до тех пор, пока агент не достигнет своей цели или не достигнет точки остановки. Можно сравнить это с работой гипервизора.

На сегодняшний день именно агентные фреймворки выступают в роли слоев оркестрации.

Подробнее о расширениях

Расширения позволяют агентам беспрепятственно взаимодействовать с внешними API, превращая запросы пользователей высокого уровня в выполнимые команды. Они делают агентов гибкими для самых разных приложений, например, бронирования авиабилетов или получения информации о погоде. По сути, расширения – это что-то вроде плагинов Eliza от @ai16zdao.

О функциях

Функции переносят выполнение задач на сторону клиента, предоставляя разработчикам больше контроля. Они идеально подходят для управления безопасностью, асинхронными операциями и ситуациями, где требуется гибкость или дополнительная логика при вызове внешних API.

Data Stores позволяют агентам интегрировать динамическую внешнюю информацию без необходимости повторного обучения моделей. Доступ к структурированным (например, электронные таблицы) и неструктурированным (например, PDF-документы) данным улучшает точность и актуальность работы агентов.

Удобная таблица:

Google включила обзор инструментов, упомянутых выше, в виде таблицы. Она помогает понять, где каждый инструмент находит применение.

Еще один ВАЖНЫЙ раздел в whitepaper: ОБУЧЕНИЕ

Как агенты становятся умнее? Как они могут обучаться "на ходу"?

Агенты могут приобретать целенаправленное обучение для улучшения использования инструментов следующими способами:

Обучение в контексте (In-Context Learning): адаптирует агента на ходу.
Обучение на основе извлечения (Retrieval-Based Learning): динамически обогащает подсказки.
Тонкая настройка (Fine-Tuning): готовит агентов для конкретных областей или задач.

Плюсы и минусы каждого подхода:

Обучение в контексте (In-Context Learning)

✅ Быстрая адаптация с помощью примеров на лету.
✅ Не требует дополнительного обучения.
❌ Ограничено предоставленными на момент работы примерами.
❌ Эффективность зависит от качества подсказок.

Обучение на основе извлечения (Retrieval-Based Learning)

✅ Динамическое обогащение подсказок релевантными внешними данными.
✅ Позволяет агентам получать актуальную и специализированную информацию.
❌ Требует надежных внешних источников данных и систем извлечения.
❌ Увеличивает задержку из-за процессов реального времени.

Тонкая настройка (Fine-Tuning)

✅ Готовит агентов для конкретных областей или задач с использованием больших наборов данных.
✅ Дает стабильные и качественные результаты для целевых случаев.
❌ Ресурсоемкий процесс (время, вычислительные мощности, затраты).
❌ Требует повторного обучения для новых данных или доменов.

Финальный ключевой инсайт из whitepaper

Google прогнозирует, что агенты будут объединять специализированные возможности через концепцию "сцепления агентов" (agent chaining). Это позволит нескольким агентам, каждый из которых специализируется на конкретных задачах, работать вместе для решения сложных проблем в различных отраслях и приложениях.

Прямая цитата:
"Будущее агентов открывает захватывающие перспективы, и мы только начали осваивать их потенциал. По мере совершенствования инструментов и улучшения способностей к рассуждению агенты смогут решать всё более сложные задачи. Стратегический подход к ‘сцеплению агентов’ будет набирать обороты: комбинация специализированных агентов — каждый с высокой компетенцией в своей области — создаст подход ‘микса экспертов’, способного обеспечивать исключительные результаты в различных отраслях и областях решения проблем."

Почему это важно?

Эта цитата подтверждает предположение, что агенты будут становиться все более специализированными и будут полагаться друг на друга. Это и есть основа концепции Agent TCP/IP, которую я разработал совместно с @jasonjzhao. Она описывает важнейший инфраструктурный слой для сцепления агентов.

Агенты не будут "цепляться" друг за друга бесплатно — они будут использовать компетенции друг друга, а Agent TCP/IP регулирует, как эти компетенции лицензируются и монетизируются, создавая устойчивую и прибыльную экономику знаний для разработчиков моделей и агентов.

Напоследок

Будущее агентов — это не замена людей, а их усиление. Эти системы не просто будут отвечать на вопросы, а помогать принимать решения. Они не просто автоматизируют задачи, а переосмысляют их.

Вопрос не в том, что могут делать агенты, а в том, насколько далеко мы готовы зайти.

Если вы знаете кого-то, кто интересуется ИИ-агентами, поделитесь этим материалом. Увидимся в AGENTLAND!

Ссылка на whitepaper: https://media.licdn.com/dms/document/media/v2/D561FAQH8tt1cvunj0w/feedshare-document-pdf-analyzed/B56ZQq.TtsG8AY-/0/1735887787265?e=1736985600&v=beta&t=pLuArcKyUcxE9B1Her1QWfMHF_UxZL9Q-Y0JTDuSn38

Подпишись на канал: https://t.me/cryptomokakke