Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion
Обзор на работу: Suglia A. et al. Embodied bert: a transformer model for embodied, language-guided visual task completion (2021) //arXiv preprint arXiv:2108.04927.
EmBERT выполняет задания в среде ALFRED, совмещая текст и визуальные объекты. В отличие от стандартных моделей, он не просто предсказывает последовательность действий, а определяет целевые объекты и логику их использования.
Модель состоит из мультимодального энкодера и декодера. Энкодер обрабатывает текст через BERT и выделяет объекты с Mask R-CNN. Каждому объекту 𝑜 соответствует вектор:
𝑜 = [ResNet(𝑜), BBox(𝑜), Area(𝑜), RelativePos(𝑜)]
Текст и визуальные данные объединяются с помощью OSCAR в единое представление:
𝐻 = OSCAR([𝐿, 𝑂]) ∈ ℝ^(𝑚+𝑛+|𝑂|)×𝑑ₑ
Где 𝐿 – эмбеддинги текста, 𝑂 – эмбеддинги объектов.
Состояние агента формируется через объединение [CLS]-токена и последнего [SEP]-токена:
Это позволяет учитывать и инструкцию, и объекты сцены.
Декодер на основе Transformer-XL обрабатывает скрытые состояния и предсказывает:
1. Действие: 𝑃(𝑎ₜ | ℎₜ) = softmax(𝑊₂ ⋅ GeLU(𝑊₁ ℎₜ))
2. Целевой объект: 𝑃(𝑜ₜ | 𝑂) = softmax(𝑊ₒ ⋅ GeLU(𝑂))
3. Навигационный объект: 𝑃(𝑂ₙₐᵥ) = softmax(𝑊ₙₐᵥ ℎₜ)
4. Родительский объект: 𝑃(𝑃(𝑂)) = softmax(𝑊ᵣₑ𝚌ₚ ℎₜ)
Обучение модели строится на нескольких функциях потерь:
Где 𝐿ₐ – ошибка предсказания действий, 𝐿ₒ – объектов, 𝐿ₙₐᵥ – навигации, 𝐿ᵣₑ𝚌ₚ – контейнера. Используется Adam + Teacher Forcing, время обучения 20 часов.