#instruction_following
April 9, 2025

TRUE KNOWLEDGE COMES FROM PRACTICE: ALIGNING LLMs WITH EMBODIED ENVIRONMENTS VIA REINFORCEMENT LEARNING

Обзор работы: Tan W. et al. True knowledge comes from practice: Aligning llms with embodied environments via reinforcement learning //arXiv preprint arXiv:2401.14151. – 2024.

В статье рассматривается проблема граундинга языка, то есть применение языковой модели в реальной среде. Как отмечалось ранее, если модель не получает обратную связь от окружающей среды и не учитывает, как её действия влияют на неё, нельзя говорить о полноценном граундинге. Авторы предлагают новый подход, объединяющий языковые модели с эмбодированными агентами посредством обучения с подкреплением (РЛ), что позволяет «заземлить» языковую модель через практический опыт.

1. Предсказание действий через языковую модель

Вместо прямого выбора действия авторы используют языковую модель для оценки вероятности каждого возможного действия. Для этого в модель передается описание наблюдения и список действий в виде слов. Таким образом, итоговая вероятность генерации последовательности зависит от вероятностей, рассчитанных для каждого токена.

2. Нормализация вероятностей

Одной из проблем данного подхода является зависимость итоговой вероятности от длины последовательности. Для устранения этого эффекта вводятся два метода нормализации:

- Геометрическая нормализация:

score(Y) = (∏ₜ₌₁ᵀ p(yₜ | y₍<ₜ₎))^(1/T)

Этот метод предполагает извлечение T-го корня из произведения вероятностей для каждого токена.

- Логарифмическая нормализация:

score(Y) = (1/T) ∑ₜ₌₁ᵀ log p(yₜ | y₍<ₜ₎)

Здесь рассчитывается среднее значение логарифма вероятностей, что позволяет устранить влияние длины последовательности на итоговую оценку.

3. Обучение модели

Авторы применяют алгоритм PPO для обучения стратегии агента. При этом они добавляют «головы» критика и актора поверх замороженной модели LLama2, обновляя их веса с помощью LoRA. Такой подход позволяет сохранить предварительно обученные знания модели, адаптируя её к эмбодированным средам.

Основные недостатки, на мой взгляд:

- Ограниченность среды:

Подход работает исключительно с дискретными средами, что сужает область его применения в более сложных, непрерывных сценариях.

- Недостаток сравнения с альтернативными методами:

Авторы не проводят детального сравнения с другими существующими методами, что затрудняет оценку преимуществ предложенного подхода по сравнению с уже разработанными решениями.

LLM-used: LLaMA-7B, Palm