DANLI: Deliberative Agent for Following Natural Language Instructions

Обзор работы: Zhang Y. et al.
"DANLI: Deliberative Agent for Following Natural Language Instructions" (arXiv:2210.12485, 2022)

#planning #embodied

TL;DR
Авторы представляют DANLI — делиберативного нейро-символьного агента для выполнения сложных инструкций. Агент строит внутреннюю карту мира, прогнозирует подцели и строит планы через символьное планирование. Это позволяет ему на 70% эффективнее достигать целей по сравнению с реактивными моделями.

🧠 В отличие от реактивных систем, DANLI не просто реагирует на текущую обстановку, а сознательно строит план достижения цели. Он создает трёхмерную карту мира, в которой объекты имеют уникальные идентификаторы и состояния вроде "разрезан", "помещён в тостер", "включён".

На основе истории диалога и действий агент с помощью модели BART-Large предсказывает всю последовательность подцелей, которые нужно достичь для выполнения задания. Это позволяет планировать действия заранее, а не реагировать на каждый шаг отдельно.

Внутреннее устройство агента включает:

• Построение 3D voxel-карты сцены и отслеживание состояния объектов
• Прогнозирование завершённых и будущих подцелей
• Формирование символьного планировочного пространства (PDDL)
• Символьное планирование с перепланированием при ошибках
• Поиск недостающих объектов, если они не были замечены

Метрики выполнения задачи включают:

• Успех задачи = (правильные в конце – правильные в начале) ÷ (неправильно размещённые в начале)
• Path Length Weighted Success = длина пути агента ÷ максимальная из (его длины, длины эталона) × метрика успеха

Это позволяет учитывать не только достижение цели, но и эффективность пути.

Результаты на бенчмарке TEACh:

• 18.6% успешности на видимых сценах
• 16.7% на невидимых сценах

Это значительно выше лучших реактивных моделей (ET, HET, HET-ON), где успешность составляла 8–12%.

Ключевые техники, давшие прирост:

• Строительство полной внутренней карты
• Предсказание всей последовательности подцелей
• Активный поиск недостающих объектов (с "притворным" планированием)
• Scene Pruning для ускорения планирования
• Перепланирование и обработка ошибок исполнения

DANLI показывает, что совмещение символьного планирования и нейронных моделей позволяет создать агентов, которые осмысленно планируют, объясняют свои действия и адаптируются к изменениям среды при выполнении многошаговых инструкций.

🚧 Ограничения:

• Требуется заранее определённый набор объектов и действий
• Работа доказана в симуляции, но пока не перенесена на физические роботы
• Ограниченная открытость к новым незнакомым объектам без дополнительной настройки