RTFM: GENERALISING TO NOVEL ENVIRONMENT DYNAMICS VIA READING

Пример инструкции (мануала) и наблюдения из среды

#instruction_following #language_grounding #reinforcement_learning

Обзор на работу: Zhong V., Rocktäschel T., Grefenstette E. Rtfm: Generalising to novel environment dynamics via reading //arXiv preprint arXiv:1910.08210. – 2019.

Статья посвящена задаче следования инструкциям и языковому граундингу в интерактивных средах. Под задачей следования инструкции понимается обучение модели выполнению действий в среде таким образом, чтобы достигалась заданная в инструкции цель.

Авторы подчёркивают, что в реальных условиях цели и динамика среды часто изменяются одновременно. Как они отмечают:

"In practice, changes to goals and to environment dynamics tend to occur simultaneously—given some goal, we need to find and interpret relevant information to understand how to achieve the goal."

Это означает, что агенту недостаточно просто следовать зафиксированной цели. Он должен уметь извлекать из текста «подсказки» для её достижения, интерпретируя динамически предоставляемую информацию. Для изучения этой задачи авторы предлагают новую среду RTFM (Read to Fight the Monster).

В этой среде агенту необходимо понять из текста инструкции, кто является его врагом, кто — союзником, и каким мечом можно победить противника.

"In particular, it must identify relevant information in the document to shape its policy and accomplish the goal."

Для решения задачи предлагается архитектура на основе FiLM-слоёв. Эти слои усиливают визуальные признаки на основе текстового контекста. Авторы модифицируют подход, создавая двунаправленный FiLM: признаки изображения усиливаются с учётом текста, и наоборот — текстовые признаки уточняются в зависимости от визуального ввода.

Критический комментарий

Хотя статья предлагает интересную постановку задачи и архитектурное решение, не обошлось без упрощений. В частности, в среде отсутствует полноценное визуальное наблюдение — агент получает не изображение, а символическое поле (например, `*`, `?`, `-` и т.д.). Это значительно снижает сложность задачи, однако в тексте статьи на этот момент внимание не акцентируется. Такой приём может рассматриваться как попытка нивелировать потенциальные ограничения предлагаемого подхода.