DBRX - MoE в fp8 за 130
Среди LLMщиков есть распространенный сетап обучения - если хотите нормально претренить модель: учите в bf16+adamw_образны(laion, adafactor, alan, вариаций много 2momentum остается) и с zero3/fullshard или аналогом. Тогда не ебанет и скорее всего дефолт параметры +- поедут нормально, а не как обычно
Все остальное - удел резечеров которые то лорой претренят, то в 2bit(не совсем) то еще как нибудь изьебнуться.
Маленькое включение про устройства видеокарт
GPU - строиться на огромном числе маленьких ядер(это позволяет быстро гонять паралелньые операции), для еще бОльшего быстродействия такие ядра в том числе выделяют под разные типы данных: fp32, 16 и прочее, остальные типы будут работать, но не так быстро
но начиная с поколения hopper добавилась возможность гонять более мелкие типы данных- fp8. К слову в Broadwell можно до int4 гонять нативно в tensor cores))
К слову раньше nvidia делали ставки на sparce layers, но популярности они не сыскали потому что хуево работали))
Короче bf16, fp8 ускорения у h100, не теряем нить, sparce типы особо никто не использовал и долгое время после выхода h100 fp8 использовали только для inference engine от nvidia
Контекст закончился
MOE для самых маленьких
Короче вот у вас есть жирный трансформер, самая его жирная часть - FFN, она очень долго выполняется, поэтому есть очевидная идея - давайте мы разрежем FFN на экспертов(много небольших ffn), соответственно это позволит нам быстрее все это крутитить(мы выбираем на инференсе самый вероятный FFN через активацию)
DBRX
Э, mixtral like 132B трансформер, эксперты по 36B, 12T каких то токенов в претрене, gpt4 токенайзер
лучше чем mixtral, вероятно хуже топовых файнтюнов на данный момент, но перспективы есть.