#instruction_following
April 9, 2025

Visually-Grounded Planning without Vision: Language Models Infer Detailed Plans from High-level Instructions

Обзор на работу: Jansen P. A. Visually-grounded planning without vision: Language models infer detailed plans from high-level instructions //arXiv preprint arXiv:2009.14259. – 2020.

TL;DR: На основе SuperVised датасета, авторы дообучают большую языковую модель строить план действий агенту - это улучшает качесвто стандартных подходов, в которых агент действует по наблюдениям.

Как построить детализированный план действий, если на входе есть только текстовая инструкция, но нет визуальной информации? В исследовании Peter A. Jansen (2020) показано, что это возможно. Авторы рассматривают задачу ALFRED, в которой агент выполняет бытовые задания, такие как *«помой вилку и положи её в ящик»*, и строят пошаговые планы без использования зрительной информации.

Как обучают модель?

Модель обучается в супервайзд режиме на размеченных данных (инструкция → пошаговый план). Используется датасет ALFRED, где аннотаторы вручную создавали эталонные последовательности действий.

Архитектура:

- RNN (Seq2Seq с вниманием).

- GPT-2* обученная на текстовых последовательностях в формате:

<Directive> [SEP] <CommandTuple1> [CSEP] <CommandTuple2> ... [EOS]

Результаты

- Без визуального входа модель строит 26% корректных планов.

- Если добавить стартовую локацию агента, точность вырастает до 58%*

Как модель предсказывает без обратной связи?

Модель использует вероятностные закономерности в языке. Например, если инструкция — «помой вилку и положи её в ящик», то из текста можно логически вывести стандартный порядок действий, не зная точного расположения объектов.

Выводы

- Язык сам по себе может быть мощным инструментом планирования.

- Такой метод можно использовать как начальное построение плана перед взаимодействием с окружающей средой.

- Большие языковые модели содержат знания о бытовых сценариях и способны строить разумные последовательности действий.

Код авторов: [github.com/cognitiveailab/alfred-gpt2](http://github.com/cognitiveailab/alfred-gpt2/)

LLMs used: GPT-2 Medium