Large World Model (LWM)

ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models

Whait, это опенсурсная модель которая жрет 1M контекста? Часовые видео? охуеть....

Что это?

Берем лламу 7в
Собираем датасет книжек
Последовательно увеличиваем размер последовательности чтобы модель не развалилась!

Любопытное решение - модель училась не с адапетером как llava/blip а с VQGAN токенами(те "vae токенизировал изображения"), одна картинка - 256 токенов.

Контекст скейлили с помощью RoPE(https://arxiv.org/abs/2306.15595 обзор будет когда нибудь)

Качество для 7B модели конечно нихуя себе, очень неплохо.

EMERGENT ABILITYS

Нет, ну вы представляете, если учить модель на картиночных токенах, она сможет их генерировать? я не представлял.

Собственно даже видео может генерировать, и вероятно минутные тоже.