Короче обзор фейсбучной статьи - люди проводят пачки абалейшенов и они НЕ БЕСПОЛЕЗНЫЕ!!! прикиньте да, можно не просто менять gelu на relu, а думать и считать. Я вот охуел.
Короче сегодня будет пояснять за самую хайповую китайскую поделку этой весны - OpenSora.
Среди LLMщиков есть распространенный сетап обучения - если хотите нормально претренить модель: учите в bf16+adamw_образны(laion, adafactor, alan, вариаций много 2momentum остается) и с zero3/fullshard или аналогом. Тогда не ебанет и скорее всего дефолт параметры +- поедут нормально, а не как обычно
ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models
Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)
2006 год теперь можно легально ебать, а значит ресечеры из дипмайнда расчехлили свои кластера и пошли ебать метод. 2006 года. Твердо и четко.
те кто давно на меня подписаны знают что я довольно скептически отношусь к СВЕРХ массивным моделям - да круто, мы обязательно туда придем, но это игрушки для безмерно богатых ребят, на такого размера графах сложно строить продукты - как правило они не влезают в одну ноду(для TPU это не так критично - там сеть заметно быстрее), в итоге на середину 2023 года мы имели примерно такую картинку:
Автор FLASH ATTN ебанутый, вы знали? Чувак в одно лицо поднял top1 решение для ускорения практически любой сетки, а теперь сделал сетку по мотивам, ключевое:
Ладно, на самом деле картинка не верна, если нормально померить - gpt4v будет обгонять любой опенсурс на любом бенче, но api нет, папиры нет, а значит я могу клипать смешнявки на потеху публике.