Обзор работы: Tan W. et al. True knowledge comes from practice: Aligning llms with embodied environments via reinforcement learning //arXiv preprint arXiv:2401.14151. – 2024.
Обзор на работу: Suglia A. et al. Embodied bert: a transformer model for embodied, language-guided visual task completion (2021) //arXiv preprint arXiv:2108.04927.
Обзор на работу: Jansen P. A. Visually-grounded planning without vision: Language models infer detailed plans from high-level instructions //arXiv preprint arXiv:2009.14259. – 2020.
Обзор на работу: Ahn M. et al. Do as i can, not as i say: Grounding language in robotic affordances //arXiv preprint arXiv:2204.01691. – 2022.

Обзор на работу: Zhong V., Rocktäschel T., Grefenstette E. Rtfm: Generalising to novel environment dynamics via reading //arXiv preprint arXiv:1910.08210. – 2019.
Задача авторов - научиться генерировать план для агента действующего в среде по инструкции. При этом они показывают, что для этого вообще не обязательно обучать языковую модель - она уже и так все может и все умеет. Вместо этого, авторы учат модель ранжирования, которая дает оценку предсказнным языковой моделью планам.