Aleksandr

замены нет. Или есть? современные замены трансформеров

2025-06-29T17:15:19.605Z

Вот тут более строгий доклад: https://www.latent.space/p/2024-post-transformers

хоть и старый

У интервьюверов есть привычка спрашивать: а какие минусы трансформера?

В ответе ожидается бла бла про n**2 в attn и что вообще тяжело длинные контектсы(2022 передает вам привет) и в качестве оптимизаций все как один ждут бреда про linear attn, если интервьювер прогрессивный и контора получше то про flash и гибридные архитектуры

внимательно смотяр на график мы понимаем что:

baseline трансформер с FA работает лучше чем naive linear attn до 100к токенов
нас наебали?

к слову в случае с тупыми или/и мелкими моделями архитектурные изменения мало что меняют, до нескольких Billions параметров то что вы вкатили 2ln вместо одного или сделали очердной вариант атеншена то это мало на что влияет.

спойлер: про linformerы написано несколько сотен НАХУЙ НЕ НУЖНЫХ А* статей, защищено куча работ и при этом оно юзлесс. прям совсем. прям недлячего.

А из-за того что оно в не лучше выходит так что это не оптимизируется не поддерживается и по итогу никто не пишет оптимизации или даже банальные интеграции в трансформеры.

К слову то же направление мысли было в BigBird

ну типа лучше, но по итогу нормально и не поехало, хотя и сильно толкнуло вперед всякие варианты SPARSE SWA и прочие хитрые маски

Mamba, rwkv и прочий постчатгпт хайп

про них писали все. не хайповал только ленивый.

внутри хитрая вариация RNN + atttn накрученная соверменными оптимизациями чтобы оно работало быстрее чем стандартные лламы, куча архитектурных приколов, поддержано в HF и.... почти никому не нужно?

есть довольно обстоятельный текст от небиуса, почитайте сами если надо https://nebius.com/blog/posts/model-pre-training/transformer-alternatives-2024

MOE

конкурент dense трансформера? конкурент. количество геммороя которое огребается от обучения MoE мало чем отличается чем учить что то принципиально новое - опенсурса очень немного, ft условного qwen moe процедурна нетривиальная и болезненная.

Dense эксперты, используется N экспретов за токен, почитать тут

https://cameronrwolfe.substack.com/p/nano-moe

Gemma n - MatFormer

довольно умная идея - давать роутеру возможность выбрать сколько экспертов использовать на генерацию что дает неплохой прирост по скорости + экономию по параметрам

https://huggingface.co/google/gemma-3n-E4B-it-litert-preview

32к на input, картинки, аудио, штука интересная, по бенчмаркам сопоставима с 4b gemma

Time to think

2025-01-21T15:58:48.199Z

Первое что стоит понимать про любой RLHF этап - это скам. Не в том смысле что две задачи МЛя, а в том смысле что: Твой ревард может легко ломатся, ревард может быть хорошим для одной задачи и ОЧЕНЬ плохим для другой.

Пример: вы построили десять мостов, написали три книжки и получили -1. Вопрос: за что вы получили -1 ревард?

Отдельный прикол: RM стимулирует модели генерировать более длинные ответы

Ну и доучилось до того что генерит в 3-4 раза БОЛЬШЕ токенов на ответ чем о1 от oai, ~~вот вам и time inference scaling~~

Что сделали?

Авторы используют комбинацию из RM + rule based (на правилах)

Что не работает?

MCTS

Ну понятно, потому что поле поиска большое, модели с SFT/RLHF этапом менее разнообразные, масштабируется с нюансами

PRM/BON

Reward hacking+авторам не понравилось

Буквально цитата;

In conclusion, while PRM demonstrates a good ability to rerank the top-N responses generated by the model or assist in guided search (Snell et al., 2024), its advantages are limited compared to the additional computational overhead it introduces during large-scale reinforcement learning process in our experiments.

Cамогоная llm4

2024-12-14T22:31:15.973Z

Год назад я шутил что phi3 будет лучше чем gpt4.

Ну, as you see, опять я оказался прав. (шучу, опять оверфит на бенчи, хотя модель ОЧЕНЬ хороша)

ДАННЫЕ ЧИСТИТЕ ЧИСТО

10T токенов. Это все что вам надо знать и понимать почему phi4 заебись.

Собственно оригинальные(1,1.5) phi были про то что: если дистилировать gpt4 то выходит хорошо.
В PHI4 на уровне подготовки претрена загатавливают базу под алаймент, суть та же: Давайте попросим соберем очень качественные seedы промптов + cбор претрена из webcrawl такого чтобы он был чистый.

Про web crawl

Отфильтруем по источникам, нам нужен только чистые доки- arxiv, pubmed, gh и прочее
Профильтруем general webcrawl по инженерным кейвордам
Сбаланисируем MT часть на 176(!)языков
Отфильтруем из XML все плохое что есть

Про синту

400b всего

из кода и веба делают затравки по аналогии с Instructor(просят переписать код/сделать какую то операцию с текстом)
Q/A датасеты фильтранули чтобы они не были слишком простыми
Incstruction following задачи генерировали обратно - просили написать инструкцию для кода который уже есть(!)

Про число повторов/эпох

до 20 повторений некоторых особо чистых источнников(sic!)
12 эпох затравок из синты
Синта сильно докидывает для сложных бенчей
Модели обученные только на синте очень плохи в real world knoweldge (shoked pickachu face)

Датамикс конечно мое почтение

Midtraining Details

Идея простая - мы хотим иметь большой контекст(больше 10к) Такой длинны синты в природе нет и конкатить их очень сложно. Давайте возьмем книги, статьи, и код(репозитории) и соберем их этого в соотношении 30/70(30 новых данных и 70 их претрена) датасет на 250B токенов для длинного контекста.

Качество выходит очень близко к моделям которые бежали либо х2 токенов как Qwen либо сами по себе больше(llama 70b)

мне лень переписывать, сами почитайте что они имеют ввиду

SFT

Известный на западе как Instruction Tuning и на востоке как ЧоБля?

Коротко: 8б токенов, 40 языков, chatml(слава блять богу)

А вот про DPO интересно, челы изобретают что то типа online dpo, но тк openai не принадлежит майкрасофт - они гоняют в качестве RM gpt4o которая смотрит на последовательность и прикидывает когда модель начинает лажать.

И финальный датасет выглядит так:

Ну и типа бьет все, хотя метод оригинальный и выглядит полезным.

Physics of Language Models

2024-04-28T10:23:24.926Z

Короче обзор фейсбучной статьи - люди проводят пачки абалейшенов и они НЕ БЕСПОЛЕЗНЫЕ!!! прикиньте да, можно не просто менять gelu на relu, а думать и считать. Я вот охуел.

Немного терминов которые авторы используют в статье, а я буду переиспользовать.

Knoweledge pieces - куски знания, те модель точно отвечает что "Этот прекрасный мир" - лучшее аниме. Или например точно отвечает на вопросы про скорость света и тд
Bit Complexity and Capacity Ratio - мы считаем с какого размера модель может выучить N bit информации и с бОльшой вероятность воспроизводить

пример

В качестве примеров данных они используют такой датасет синты, что то типа викепедии только сильно проще и более контролируемое+ дополнительно переписали на llama2 чтобы докинуть "шума"

Всего размер такого датасета где то 23gb

Качество сжатия(bit complexity) считается таким образом

Capacity Ratio

Для модели F c числом параметров P, обученной на датасете

По оси Y у нас то сколько модель выучивает знаний, по оси X у нас размер модели, а N это количество сущностей в данных которые показывают модели.

Каждая циферка у точки это соотношение глубины-ширины те 20-16 означает 20 слоев и 16 голов

Левый график соотвествует 1000 повторений данных, правый - 100 повторений данных

Base Scaling Laws

1) 1000 проходов вики гарантирует что модель будет знать основную фактологию, но если будет common crawl качество данных - понадобиться миллион повторений, см график слева(вики лайк) и справа(CC like)

Модели с коэфом сжатия 1.8 в целом хороши, выше смысла особо нет

Knoweledge extraction

Важная ремарка - речь о сжатии 2бит/параметр не означает что модель выучивает 1в1 википедию, это озночает что после ft на задачу qa модель будет увренно и правильно отвечать "кто когда родился", "а мог ли ленин встретится с гитлером" и прочее

Data Formats — Diversity and Rewriting

ебать картинка страшная

K - количество уникальных фич в датасете - ну номера паспортов, даты, токены и прочее

T - размер словаря

L,C - длинна чанка знаний

Когда авторы переписывали через LLama2 свои фактические датасеты, llama2 неизбежно галюны выдавала и в целом ломалась переодически, а значит в данные добавлялся реальный шум.

Training Time vs Scaling Law

Логика такая, что если хотите достичь максимальной точности нужно где то 1000 повторений, если хотите оптимальной - 100 хватит с головой

Model Architecture vs Scaling Law

Краткая справка для тех кто не ебет чем ллама от мистраля отличается

1) LLaMA/Mistral используют так называемые слои GatedMLP, которые представляют собой V (σ(W1x)·(W2x)) вместо V σ(W x).

2. В отличие от GPT2, LLaMA/Mistral не используют связывание весов.

3. Mistral имеет более широкие MLP по сравнению с GPT2/LLaMA.

4. Mistral использует group query attention, в отличие от GPT2/LLaMA.

5. LLaMA/Mistral используют другой токенизатор, чем GPT2.

6. GPT2 использует функцию активации gelu, LLaMA/Mistral предпочитают silu.

7. GPT2 реализует нормализацию слоев с обучаемым bias

Исходя из метрик авторы говорят: особой разницы и прироста нет, везде примерно одинаковые цифры, забейте. Учите то что лучше учится.

Insufficient Training Regime and a Closer Comparison

1) А тут интересно, если у нас не оптимальный режим обучения(lr) то llama работает в 1.3 раза хуже чем gpt2

2) если выкинуть mlp модель тупеет в 1.5 раза

3) если порезать 1/4 mlp то разницы особо нет

4) Если заменить llama gated mlp на нормальный, то работает лучше

5) замена токенайзера сильно роляет для мелких моделей

5) silu/gelu -вообще похуй, влияния на capacity нет

ну собственно чекаем ебало

Quantization vs Scaling Laws

В целом все понятно, при уменьшении с fp16-> fp8 разницы нет, в fp4 вам пизда все хуже в 2 раза

Mixture of Experts vs Scaling Laws

МОЕ убивает 30% если показали 1000 раз и 50% если показали 100 раз. Короче приемлимо

Junk Data vs Scaling Laws

Короче если доливать мусорные данные - модель будет намного хуже(в 20 раз). фильтрация - наше все.

Open sora? Hype or not?

2024-04-21T13:27:00.707Z

Короче сегодня будет пояснять за самую хайповую китайскую поделку этой весны - OpenSora.

это не модель мира если она не от open ai и не очень красивая

Back to the roots

Помните была такая dalle1? ну которая картинки, vqvae токены и вот это все. Ну так вот, если у тебя есть модель которая может генерить 256*256 картинку, значит у тебя есть модель которая может генерить 4 картинки 128*128. Или 8 картинок 64*64

ну вот, так работала https://github.com/wilson1yan/VideoGPT и пачка китайских работ про которые я не хочу говорить, ну собственно если вы готовы генерить 1м токенов то 1минутное видео с частотой 60fps не очень то и большая проблема.

С вас две почки и ваша мать за компьют на ring attention.

Мы нищие, значит претрен с нуля не наш путь

Короче что такое видео? это последовательность картинок. Проще говоря для того чтобы из картиночной модели сделать video достаточно доложить temporal канал imagen.research.google/video/

cобственно гугл придумал это еще летом 22, но произошел амнезия инцедент и все на это забили. Хотя в целом никаких ограничений чтобы сделать тоже самое с SD1.4 не было.

Проходит пол года и выходит align your latents

Пресловатая SD, но тут используют встройки temporal layer_ов которые в свою очередь опирируют батчем латентов из 8 кадров. Те размер такого темпорал лайера = [число кадров, latent_dim ]. к слову так же построены https://stability.ai/news/stable-video-diffusion-open-ai-video-model от того же робина ромбаха

к баранам, ой в смысле трансформерам

короче если у вас есть видео которое по сути картинки, то вы очень захотите его сжать по RGB и tempora, быстро пробежимся по тому как это делается

Ну есть три работы magvit1-2 и cavvit. про вторую почитаете сами, а я про magvit расскажу

Меня всегда забавляло что в сообществе называют такие архитектуры Video/Image tokenizer_ом, хотя очевидно к токенизации оно отношения не имеет

а, еще оно умеет привторятся не трансформером, а диффузией, те может предсказывать паралельно ОЧЕНЬ много токенов картинки. Зачем? ДА ЭТОЖ КРУТО!!

Cобственно в чем идея - у нас есть сжималка для видео - мы сжимаем N_frames*H*W в размерность N_FRAMES/1.3*64*64 ~ те это вполне себе штука с которой удобно работать, а еще и сжатая по тайм оси, мы не богатые, токены не бесплатные.

А потом учится трансформер на таких "токенах", по старой гугловой традиции учится мультитаск, например может предсказать новые виды или сделать из картинки/видео 1:1 картинку/видео 16:9

Video poet

Работа которую пропустили почти все(?) мои знакомые блогеры, хотя работа довольно любопытная

https://sites.research.google/videopoet/

Собственно идея простая, берем и скейлим magvit, но еще докидываем токенезацию для аудио. Круто!!

Но вероятно модель была пиздец какой медленной + огромной + гуглу надо закопать еще одну крутую штуку на кладбище. НУ и закопали, хули)))

собственно эээ dalle1 на стероидах странных категорий

Через пол годика опенаи докинет аудио токены в сору и вот тогда будут бурления в интернетах: ААААА, ВОРЛД МОДЕЛЬ ПОНИМАЕТ АУДИО, МЫ В МАТРИЦЕ.

пиздец.

Latte

Собственно что у нас тут, DIT ака трансформер который инферят и учат как диффузию, при этом авторы проводят АБАЛЕЙШН АРХИТЕКТУР И ОН НЕ БЕСПОЛЕЗНЫЙ!!!!(прикинитье можно не только тупо SELF attn махнуть на conv но и что то поумнее сделать)

архитектурные экспы в latte

1) Давайте возьмем Temporal(по кадрам) и Spatial (по сути на токены), а размерность входа выхода получается NUM_FRAMES*TOKEN_PER_FRAME(где то 1024 токена на фрейм)

проще говоря, суют кадры последовательно в трансформер и не выебываются

2)Все тоже самое, просто в начале spatial, потом temporal блоки

3)Тут все довольно просто, давайте возьмем и в один и тот же трансформер блок пихнем и temporal и spatial фичи. Так победим.

Пиздатые идеи для резерча

1) Авторы говорят, учить целиком дифужн трансформер - не наш путь, мы заинитим весами просто DIT который учился на ImageNet, а лейблы переделаем. А позиции токенов переинтим по аналогии с ROPE.

2) Давайте докинем фреймы из видео в претрен сет, нам полезно не забывать что видео это вообще то картинки

рил неплохо докинуло

авторам хуй стоит пожать за такой резерч, очень уважаемо

Сравнение разных вариантов сэмлирования видео, сэмлринга кадров и то как сэмлятся кадры

4) Сompression patch embedings

Ну типа можем патчить не просто кадры, а кадры по времени, но по итогу оно хуже

5) По флопсам кстати довольно выгодным выходит именно 4 вариант

Хотя по метрикам и похуже, но любопытно.

Open sora

По сути это подход Latte, только на большем обьеме данных и больше экспов по video vae и с более высоким разрешением и числом фреймов. А еще зачем то используют DeepFloyd/t5-v1_1-xxl который ээээ, пиздец огромный и ну не секс.

Материалы

https://arxiv.org/pdf/2401.03048v1.pdf -latte

https://github.com/google-research/magvit - magvit

DBRX - MoE в fp8 за 130

2024-03-29T17:08:02.097Z

Среди LLMщиков есть распространенный сетап обучения - если хотите нормально претренить модель: учите в bf16+adamw_образны(laion, adafactor, alan, вариаций много 2momentum остается) и с zero3/fullshard или аналогом. Тогда не ебанет и скорее всего дефолт параметры +- поедут нормально, а не как обычно

Все остальное - удел резечеров которые то лорой претренят, то в 2bit(не совсем) то еще как нибудь изьебнуться.

Маленькое включение про устройства видеокарт

GPU - строиться на огромном числе маленьких ядер(это позволяет быстро гонять паралелньые операции), для еще бОльшего быстродействия такие ядра в том числе выделяют под разные типы данных: fp32, 16 и прочее, остальные типы будут работать, но не так быстро
но начиная с поколения hopper добавилась возможность гонять более мелкие типы данных- fp8. К слову в Broadwell можно до int4 гонять нативно в tensor cores))

К слову раньше nvidia делали ставки на sparce layers, но популярности они не сыскали потому что хуево работали))

Короче bf16, fp8 ускорения у h100, не теряем нить, sparce типы особо никто не использовал и долгое время после выхода h100 fp8 использовали только для inference engine от nvidia

Контекст закончился

MOE для самых маленьких

Короче вот у вас есть жирный трансформер, самая его жирная часть - FFN, она очень долго выполняется, поэтому есть очевидная идея - давайте мы разрежем FFN на экспертов(много небольших ffn), соответственно это позволит нам быстрее все это крутитить(мы выбираем на инференсе самый вероятный FFN через активацию)

DBRX

Э, mixtral like 132B трансформер, эксперты по 36B, 12T каких то токенов в претрене, gpt4 токенайзер

лучше чем mixtral, вероятно хуже топовых файнтюнов на данный момент, но перспективы есть.

Large World Model (LWM)

2024-02-19T06:48:33.076Z

ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models

Whait, это опенсурсная модель которая жрет 1M контекста? Часовые видео? охуеть....

Что это?

Берем лламу 7в
Собираем датасет книжек
Последовательно увеличиваем размер последовательности чтобы модель не развалилась!

Любопытное решение - модель училась не с адапетером как llava/blip а с VQGAN токенами(те "vae токенизировал изображения"), одна картинка - 256 токенов.

Контекст скейлили с помощью RoPE(https://arxiv.org/abs/2306.15595 обзор будет когда нибудь)

Качество для 7B модели конечно нихуя себе, очень неплохо.

EMERGENT ABILITYS

Нет, ну вы представляете, если учить модель на картиночных токенах, она сможет их генерировать? я не представлял.

Собственно даже видео может генерировать, и вероятно минутные тоже.

Лучшие вайфу - со смешанной генетикой. Кто такой models merging?

2024-02-03T20:29:00.346Z

Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)

Тема мержинга моделей это ебучий андегрунд, но он ОЧЕНЬ хорошо работает;

Почему? Ну например вам надо добавить новые знания в модель, и в классик вы будете учить модель на <что то> Пиздец ли вам? Скорее всего вы оверфитнетесь и пойдете нахуй.

А мержинг не проебет знаний и вы скорее всего не оверфитнетесь. Те следите за руками: учить модель градиентами часто менее профитно чем обучить одну модель на задачу X(генерировать персонажа) а другую на Y(генерировать улыбку). А затем модели мержаться и получается ээээ база?

https://civitai.com/images/4213139 ладно конкретно ТУТ лоры, но они мержаться по тому же принципу

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

В чем идея - для того чтобы хорошо затюнить CLIP like можно обучить разные CLIP на один и тот же сет, но варьируя: lr, seed, augmentation.

точно не обезьяны и точно понимаем как работает DL а не тыкаем модели GPUшкой пока не полетит

Ну и после такого мержинга модели начинают лучше работать(значимо)

Для ллм так примерно и делают, работает хорошо.

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

лучшая аниме вайфа для программирования??????

В чем идея: давайте возьмем WizardLM и WizardMath и будем мержить по следуюещей схеме:

Те смотрят какие параметры отилчаются в двух SFT моделях, с помощью бернули выкидывая те параметры которые одинаковые или очень близкие.

По результатам все неплохо, модели реально довольно халявно можно смержить, но мержить одновременно CODE+MATH - плохая идея

К слову все это имлементнуто тут: https://github.com/arcee-ai/mergekit?tab=readme-ov-file#merge-methods

альфа геометри - решаем егэ по цене репетитора

2024-01-19T21:49:02.351Z

В чем идея: вообще то есть механические(ака без идейные) способы считать геому. Можно перестроить все в векторный space и вытащить все координаты, а дальше приходит вычмат и считает все.

Авторы с эти особо не спорят, ну решает и решает, численные калькуляторы, так а что это блять такое????

Как решить ((((любую))))) геометрию числено?

Любой учащийся в МАТшколах-тех вузах знает что такое wolfram alpha - это такой тул для решения любого примерно любого матана. Минусы: он очень часто забивает пытаться решать что то аналитически и хуярит какие то фантастические ответы полученные численно. CPU goes brrr, математики не нужны(NO)????

Возьмем для примера спинно мозговое ЕГЭ проверяющее жив ли решающий.

Вообще за последние пару лет вольфрам сильно обновился, там теперь и NLP ввод есть и решения пишутся нормальные(почти всегда)

Как же решается геома? довольно просто

AUTOMATED DEDUCTION IN REAL GEOMETRY(2011)

прикиньте ебала алармистов в 2011 если бы они ну не знаю, не были бы хайпожорами?

Идея такая: любая геометрия задается координатами

А если мы можем задать координаты то мы можем систему уравнений которая задает эту задачу

Неприятно? Дальше будет хуже.

Собственно дальше идет метод ВУ для решения систем уравнений, он предназначен для ВычМаша, поэтому ну он не оч интуитивный для человека)

Он использует псевдоделение, работает это примерно так:

доказательство остается в качестве практики читателю

Этот метод позволит нам упростить систему до приведения ее к треугольному виду который мы можем решить. И да, это может работать ОЧЕНЬ быстро особенно на GPU. условно можно делать 300i t/s и это даже не вставая со стула первая попавшаяся репа.

https://scholarworks.umt.edu/cgi/viewcontent.cgi?article=1034&context=tme

почитать тут

Спойлер: такая схема решает 10/30 задач IMO(в 2006 году)

правда тут есть два нюанса: авторы альфа геометри забивают ссылаться на конкретную кодовую базу, а еще буквально пишут

because these methods often have large time and memory complexity, especially when processing IMO-sized problems, we report their result by assigning success to any problem that can be decided within 48 h using one of their existing implementations17

Я покопался на гите и нашел только https://github.com/jyfliu/Goq

Geometry proofs are very mechanical in nature — they don't require much creativity. The vast majority of geometry problems, even at the Olympiad level, can be solved in the following manner: Construct these templates, apply these 7 theorems in this order, these points lie in the following configuration of which we know this property about, etc. Both humans and computers are not restricted in the techniques they know, but rather by the number of templates and theorems they have memorized. And computers are a lot better at memorization than humans.

Согласен с автором полностью. Возможно перепишу(или кто то из студентов) его кодовую базу на jax и обсудим почему LM не очень то и нужны в вычматах.

Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning

wait это что, alpha geometry?? из 2021??? и alpha geometry ее не упоминает???

В чем смысл - у нас есть парсер решения в правильный формат(у DeepMind его нет, им похуй они так чувствуют), а затем маленький трансформер придумывает теорему куда подставляются чиселки, а затем машина считает их.

Офк Human baseline тут не бьется(и не может, модель на 12м параметров)

А чо такого сделали deepmind?

Э, навалили компьюта и добавили построитель доп построений(сорри за каламбур) на LM которую обучили на синте.

А что такое Symbolic engine? По сути такой же метод ВУ только сложнее, теперь они используют не просто псевдоделение, но и еще различные геометрические/алгебраические законы и переставляя их продвигается по решению преобразуя их по примерно таким правилам:

К слову с помощью него же и генерируют огромный датасет решенный авторсолвером для обучения LM(100m) и кормят в LM, а затем дотюнивают на 9m cэплов на доп построяниях)))

По сути LM служит как выбор когда строить доп построение, а когда нет для Symbolic engine.

ну понятно да

Сама по себе альфа геометри и безе LM показывает неплохие результаты на основе эвристик и symbol engine(cм Without Pretraining)

У авторов очень специфичный сетап для рана, почему то 4v100(почему не 8h100) или их TPU я не знаю, а авторам слегка похуй на обьяснения.

Вывод?

Если очень хочется можно и LM заставить решать IMO(нет, это полный бред, symbolic engines тащат)

Такая вот история

я начинаю хайповать по МоЕ и вам тоже стоит, и ВОТ ПОЧЕМУ

2023-12-17T13:00:44.937Z

те кто давно на меня подписаны знают что я довольно скептически отношусь к СВЕРХ массивным моделям - да круто, мы обязательно туда придем, но это игрушки для безмерно богатых ребят, на такого размера графах сложно строить продукты - как правило они не влезают в одну ноду(для TPU это не так критично - там сеть заметно быстрее), в итоге на середину 2023 года мы имели примерно такую картинку:

*180b влезает в 8а100 к слову, но на тюн нужно несколько нод по хорошему

ну те вы конечно можете пихнуть 180b модель в прод, но ипотека сама себя не выплатит, а вот этот графичек не наебать:

отсюда https://openai.com/research/instruction-following

Поэтому до выхода хороших откртых моделей увидеть в проде что то большее чем 20b GPT NEO было в диковинку, когда вышли LLAMA13b(по метрикам +- как gpt3 175b) то стало понятно что Scaling сurve не до конца точная - на бОльшем числе бОлее чистых токенов модели становяться умнее, а потом вышла MIstral 7b - которая порвала(~~жопы~~) и показала что в 7b размере можно показывать очень мощные результаты, при этом у mistral супер дешевый инференс - 500tokens/s на 1a100, а значит прод можно скейлить во много раз не закладывая почку БЕЗОСОСУ на gpuшки.

МоЕ - mixture of experts, та самая архитектура из слива про OpenAI, 2т параметров, короче вы знаете.

План примерно такой: я расскажу про switch transfomer, OpenMoE, Megablocks(mixtral)

Cамое просто обьяснение - это бабки у подьезда, учатся они все долго, но за инференс отвечают K самые увереные(выбираются либо Softmax либо сonv либо SelfAttn, в зависимости от архитектур)

Switch Transfomer

это не первая MoE архитектура, MoE пытались делать еще на lstm, но было плохо и не кому не нужно, а гугл сделали ...... нормально и по прежнему никому не нужно, ну серьезно

ладно, там есть модели с 1000+ скачиваний, но суть вы поняли, прием был холодный

Короче, модели и сам подход вышли крутые и вот почему:

в 7раз дешевле претрен чем у DENSE t5 версии используя те же флопсы
можно задистилировать в 1% от оригинального размера sparce модели, при этом сохранив 30% ее качества(waht ever it means, кода я не нашел)

Our work here focuses on TPU architectures, but these class of models may be similarly trained on GPU clusters. In our distributed training setup, our sparsely activated layers split unique weights on different devices. Therefore, the weights of the model increase with the number of devices, all while maintaining a manageable memory and computational footprint on each device.

на самом деле большая часть бенефитов работает именно на TPU с быстрыми шинами, те на GPU скорее всего все будет сильно хуже

Про архитектуру: по сути это все тоже самое т5, но вместо обычных MLP поставили MoE который выбирается через ROuter, на каждого эксперта приходиться по

По метрикам модели вышли довольно посредственными, они не были значительно лучше своих DENSE собратьев, при этом были очень ОЧЕНЬ дорогими для инфернса. В общем то комьюнити забили их допиливать.

собственно да, модель конечно учиться быстрее, но 14b с качеством 700m было перебором по меркам 2021-2022 года, все отложили модель на дальнию полку и забыли о ней.

OpenMoE(ST-MOE)

Прибежали челы из университета сингапура(неожиданно), взяли малоизвестную работу ребят из гугла, прикрутили Z loss отвечающий за выбор эксперта, прикрутиили bf16 и несколько оптимизаций GELU которые мне лениво разбирать, для нас важно другое.

ну те выигрышь был на 10тки процентов, что уже как бы имело смысл))

я конечно все понимаю, но эти цифры меня очень сильно пугают, 1.5t параметров

Собственно авторы обучили на 750B токенах Decoder only модель, которая была при этом ощутимо лучше на бенчах, правда авторы забили сравниваться с LLAMA(иронично), а учили на TPU cloud(см тейк выше про эффективность МоЕ на tpu)

FLAN MOE(2023)

Еще существует FLAN-MoE, он даже получается эффективнее чем просто FLAN, архитектурно совпдает с ST Moe выше

И получается слегка экономичнее Dense версии

MEGABLOCKS: EFFICIENT SPARSE TRAINING WITH MIXTURE-OF-EXPERTS

если вы внимательно читали буковки выше, могли заметить - ключевая эффективность МоЕ провляется на TPU(спецефичный сетап) и на претрене, на инференсе есть разница, но она не столь велика, а с ростом размера модели - уменьшается.

модель орентированная на GPU, сделаны kernels с которыми MoE перестает овощить
ОЧЕНЬ сильная заточенность на удешевление инфернса модели(трен постольку поскольку)

ну начнем с того что теперь у нас эксперты выбираются одновременно, по аналогии с головами трансформера

Переформулировали как mm прокидывание токенов через экспертов, что опять же сильно упрощает жизнь GPUшкам, а еще nvidia kernels быстрее работают со sparse сompute)))

на удивление MoE в 1.38x раз лучше чем ванильный трансформер, авторы обучили только игрушечные модели как proof of concept архитектуры, но по каким то причинам Mistral Ai выбрали именно эту версию, давайте накинем причины почему

инференс и трен требует больше памяти чем dense версия - да, но при этом модели используют меньше флопс на forward - за счет того что используется только 2 эксперта из 8
возможно модели учатся быстрее - я не учил, я хз))))) но авторы обещают что все хорошо будет
ПРИ ЭТОМ инференс MOE крайне выгоден на устройствах с Unified memory - телефоны, M серия чипов, много всякого от AMD. Почему? 40b модель не влезает целиком не в одну из текущих распространенных карт, но в случае с MoE это не нужно, вам нужно использовать только два эксперта, те скорость инференса для МоЕ будет такой же как у 14b модели - а это десятки токенов в секунду

ПАпиры и репы:

https://arxiv.org/pdf/2211.15841 megablock
https://github.com/stanford-futuredata/megablocks megablock code
https://arxiv.org/pdf/2305.14705 flan moe
https://www.notion.so/Aug-2023-OpenMoE-v0-2-Release-43808efc0f5845caa788f2db52021879 open moe
https://arxiv.org/pdf/2202.08906 st moe
https://arxiv.org/abs/2101.03961 switch