DANLI: Deliberative Agent for Following Natural Language Instructions
Обзор работы: Zhang Y. et al.
"DANLI: Deliberative Agent for Following Natural Language Instructions" (arXiv:2210.12485, 2022)
TL;DR
Авторы представляют DANLI — делиберативного нейро-символьного агента для выполнения сложных инструкций. Агент строит внутреннюю карту мира, прогнозирует подцели и строит планы через символьное планирование. Это позволяет ему на 70% эффективнее достигать целей по сравнению с реактивными моделями.
🧠 В отличие от реактивных систем, DANLI не просто реагирует на текущую обстановку, а сознательно строит план достижения цели. Он создает трёхмерную карту мира, в которой объекты имеют уникальные идентификаторы и состояния вроде "разрезан", "помещён в тостер", "включён".
На основе истории диалога и действий агент с помощью модели BART-Large предсказывает всю последовательность подцелей, которые нужно достичь для выполнения задания. Это позволяет планировать действия заранее, а не реагировать на каждый шаг отдельно.
Внутреннее устройство агента включает:
• Построение 3D voxel-карты сцены и отслеживание состояния объектов
• Прогнозирование завершённых и будущих подцелей
• Формирование символьного планировочного пространства (PDDL)
• Символьное планирование с перепланированием при ошибках
• Поиск недостающих объектов, если они не были замечены
Метрики выполнения задачи включают:
• Успех задачи = (правильные в конце – правильные в начале) ÷ (неправильно размещённые в начале)
• Path Length Weighted Success = длина пути агента ÷ максимальная из (его длины, длины эталона) × метрика успеха
Это позволяет учитывать не только достижение цели, но и эффективность пути.
Результаты на бенчмарке TEACh:
• 18.6% успешности на видимых сценах
• 16.7% на невидимых сценах
Это значительно выше лучших реактивных моделей (ET, HET, HET-ON), где успешность составляла 8–12%.
Ключевые техники, давшие прирост:
• Строительство полной внутренней карты
• Предсказание всей последовательности подцелей
• Активный поиск недостающих объектов (с "притворным" планированием)
• Scene Pruning для ускорения планирования
• Перепланирование и обработка ошибок исполнения
DANLI показывает, что совмещение символьного планирования и нейронных моделей позволяет создать агентов, которые осмысленно планируют, объясняют свои действия и адаптируются к изменениям среды при выполнении многошаговых инструкций.
• Требуется заранее определённый набор объектов и действий
• Работа доказана в симуляции, но пока не перенесена на физические роботы
• Ограниченная открытость к новым незнакомым объектам без дополнительной настройки