February 19
Large World Model (LWM)
ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models
Whait, это опенсурсная модель которая жрет 1M контекста? Часовые видео? охуеть....
Что это?
- Берем лламу 7в
- Собираем датасет книжек
- Последовательно увеличиваем размер последовательности чтобы модель не развалилась!
Любопытное решение - модель училась не с адапетером как llava/blip а с VQGAN токенами(те "vae токенизировал изображения"), одна картинка - 256 токенов.
Контекст скейлили с помощью RoPE(https://arxiv.org/abs/2306.15595 обзор будет когда нибудь)
Качество для 7B модели конечно нихуя себе, очень неплохо.
EMERGENT ABILITYS
Нет, ну вы представляете, если учить модель на картиночных токенах, она сможет их генерировать? я не представлял.
Собственно даже видео может генерировать, и вероятно минутные тоже.