Aleksandr
@alexwortega
21 posts

Physics of Language Models

Короче обзор фейсбучной статьи - люди проводят пачки абалейшенов и они НЕ БЕСПОЛЕЗНЫЕ!!! прикиньте да, можно не просто менять gelu на relu, а думать и считать. Я вот охуел.

Open sora? Hype or not?

Короче сегодня будет пояснять за самую хайповую китайскую поделку этой весны - OpenSora.

DBRX - MoE в fp8 за 130

Среди LLMщиков есть распространенный сетап обучения - если хотите нормально претренить модель: учите в bf16+adamw_образны(laion, adafactor, alan, вариаций много 2momentum остается) и с zero3/fullshard или аналогом. Тогда не ебанет и скорее всего дефолт параметры +- поедут нормально, а не как обычно

Large World Model (LWM)

ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models

Лучшие вайфу - со смешанной генетикой. Кто такой models merging? 

Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)

альфа геометри - решаем егэ по цене репетитора

2006 год теперь можно легально ебать, а значит ресечеры из дипмайнда расчехлили свои кластера и пошли ебать метод. 2006 года. Твердо и четко.

я начинаю хайповать по МоЕ и вам тоже стоит, и ВОТ ПОЧЕМУ

те кто давно на меня подписаны знают что я довольно скептически отношусь к СВЕРХ массивным моделям - да круто, мы обязательно туда придем, но это игрушки для безмерно богатых ребят, на такого размера графах сложно строить продукты - как правило они не влезают в одну ноду(для TPU это не так критично - там сеть заметно быстрее), в итоге на середину 2023 года мы имели примерно такую картинку:

Mamba -  Linear-Time Sequence Modeling with Selective State Spaces

Автор FLASH ATTN ебанутый, вы знали? Чувак в одно лицо поднял top1 решение для ускорения практически любой сетки, а теперь сделал сетку по мотивам, ключевое:

guide des restaurants de LDR p1

В данном обзоре будет три города: Москва, Будапешт.

Hidden Gem - LLava 1.5

Ладно, на самом деле картинка не верна, если нормально померить - gpt4v будет обгонять любой опенсурс на любом бенче, но api нет, папиры нет, а значит я могу клипать смешнявки на потеху публике.