Training a Generally Curious Agent

Обзор работы: Tajwar F. et al. Training a Generally Curious Agent //arXiv preprint arXiv:2502.17543. – 2025.

TL;DR
Авторы обучают языковую модель действовать стратегически в текстовых задачах. Вместо случайного обучения — генерация примеров, выбор удачных траекторий и отбор задач с наибольшим потенциалом прогресса. Результат — агент, способный к обобщённой исследовательской стратегии.

🧠 Training a Generally Curious Agent — статья о том, как обучать LLM действовать стратегически в многошаговых задачах. Авторы представляют метод PAPRIKA — подход к генерации данных, обучению по предпочтениям и динамическому выбору задач, на которых обучение наиболее эффективно.

📌 Ключевая цель: выработать универсальную способность агента к принятию решений и активному исследованию среды — не просто обучить на фиксированном наборе сценариев, а обобщать поведение на новые задачи.

📊 Бенчмарк состоит из 10 текстовых задач:
Twenty Questions, Guess My City, Wordle, Mastermind, Minesweeper, Battleship, Cellular Automata, Customer Support, Murder Mystery и модифицированный Bandit.

Задачи выбраны так, чтобы:
• быть полностью текстовыми
• требовать пошагового диалога
• быть частично наблюдаемыми
• иметь разную структуру

📁 Датасет строится из траекторий взаимодействия агента с задачей τ, полученных как:

h ∼ π ∘ τ

Генерируются пары:

𝔻 = { (hʷ, hˡ) }

где hʷ — успешная траектория, hˡ — менее успешная.

Каждая траектория — это сессия вида:
(x₁, a₁, o₁, …, xₜ, aₜ, oₜ),
где x — наблюдение, a — действие агента, o — ответ среды.

⚙️ Обучение проходит по 2 сигналам:

1️⃣ SFT (supervised fine-tuning):
максимизация правдоподобия действий из hʷ:

𝓛ₛ𝒻ₜ = 𝐄\[ (1/∑ₜ|aₜ|) ∑ₜ log πθ(aₜ | hₜ) ]

2️⃣ DPO (Direct Preference Optimization):
модель учится предпочитать hʷ над hˡ

Комбинация даёт регуляризованную функцию:
𝓛ʳᵖᵒ = 𝓛ᵈᵖᵒ + α ⋅ 𝓛ₛ𝒻ₜ (α = 1.0)

📈 Ключевая идея — отбор задач не наугад, а по метрике потенциала обучения.

Вводится коэффициент вариации:

ν(τ) = σ(τ) / R(τ)
R(τ) = 𝐄\[r(h)]
σ²(τ) = 𝐄\[(r(h) − R(τ))²]

Если ν(τ) высокий → задача нестабильна → на ней можно учиться.

В результате PAPRIKA позволяет обучать модель не просто на всём подряд, а на том, что с высокой вероятностью даст обучающий сигнал. Это делает обучение масштабируемым и ресурсно-эффективным.

📌 Ключевые находки:
• LLM можно обучать исследовать — если правильно организовать среду и отбор примеров.
• Автоматический отбор траекторий и задач позволяет масштабировать обучение без ручной настройки.
• Коэффициент вариации — простая, но действенная метрика для управления обучающим планом.