Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion

Обзор на работу: Suglia A. et al. Embodied bert: a transformer model for embodied, language-guided visual task completion (2021) //arXiv preprint arXiv:2108.04927.

#instruction_following

EmBERT выполняет задания в среде ALFRED, совмещая текст и визуальные объекты. В отличие от стандартных моделей, он не просто предсказывает последовательность действий, а определяет целевые объекты и логику их использования.

Модель состоит из мультимодального энкодера и декодера. Энкодер обрабатывает текст через BERT и выделяет объекты с Mask R-CNN. Каждому объекту 𝑜 соответствует вектор:

𝑜 = [ResNet(𝑜), BBox(𝑜), Area(𝑜), RelativePos(𝑜)]

Текст и визуальные данные объединяются с помощью OSCAR в единое представление:

𝐻 = OSCAR([𝐿, 𝑂]) ∈ ℝ^(𝑚+𝑛+|𝑂|)×𝑑ₑ

Где 𝐿 – эмбеддинги текста, 𝑂 – эмбеддинги объектов.

Состояние агента формируется через объединение [CLS]-токена и последнего [SEP]-токена:

ℎₜ = 𝐻₀ ⊙ 𝐻ₘ₊ₙ

Это позволяет учитывать и инструкцию, и объекты сцены.

Декодер на основе Transformer-XL обрабатывает скрытые состояния и предсказывает:

1. Действие: 𝑃(𝑎ₜ | ℎₜ) = softmax(𝑊₂ ⋅ GeLU(𝑊₁ ℎₜ))

2. Целевой объект: 𝑃(𝑜ₜ | 𝑂) = softmax(𝑊ₒ ⋅ GeLU(𝑂))

3. Навигационный объект: 𝑃(𝑂ₙₐᵥ) = softmax(𝑊ₙₐᵥ ℎₜ)

4. Родительский объект: 𝑃(𝑃(𝑂)) = softmax(𝑊ᵣₑ𝚌ₚ ℎₜ)

Обучение модели строится на нескольких функциях потерь:

𝐿 = 𝐿ₐ + 𝐿ₒ + 𝐿ₙₐᵥ + 𝐿ᵣₑ𝚌ₚ

Где 𝐿ₐ – ошибка предсказания действий, 𝐿ₒ – объектов, 𝐿ₙₐᵥ – навигации, 𝐿ᵣₑ𝚌ₚ – контейнера. Используется Adam + Teacher Forcing, время обучения 20 часов.