замены нет. Или есть? современные замены трансформеров
Вот тут более строгий доклад: https://www.latent.space/p/2024-post-transformers
У интервьюверов есть привычка спрашивать: а какие минусы трансформера?
В ответе ожидается бла бла про n**2 в attn и что вообще тяжело длинные контектсы(2022 передает вам привет) и в качестве оптимизаций все как один ждут бреда про linear attn, если интервьювер прогрессивный и контора получше то про flash и гибридные архитектуры
внимательно смотяр на график мы понимаем что:
к слову в случае с тупыми или/и мелкими моделями архитектурные изменения мало что меняют, до нескольких Billions параметров то что вы вкатили 2ln вместо одного или сделали очердной вариант атеншена то это мало на что влияет.
спойлер: про linformerы написано несколько сотен НАХУЙ НЕ НУЖНЫХ А* статей, защищено куча работ и при этом оно юзлесс. прям совсем. прям недлячего.
А из-за того что оно в не лучше выходит так что это не оптимизируется не поддерживается и по итогу никто не пишет оптимизации или даже банальные интеграции в трансформеры.
К слову то же направление мысли было в BigBird
ну типа лучше, но по итогу нормально и не поехало, хотя и сильно толкнуло вперед всякие варианты SPARSE SWA и прочие хитрые маски
Mamba, rwkv и прочий постчатгпт хайп
про них писали все. не хайповал только ленивый.
внутри хитрая вариация RNN + atttn накрученная соверменными оптимизациями чтобы оно работало быстрее чем стандартные лламы, куча архитектурных приколов, поддержано в HF и.... почти никому не нужно?
есть довольно обстоятельный текст от небиуса, почитайте сами если надо https://nebius.com/blog/posts/model-pre-training/transformer-alternatives-2024
MOE
конкурент dense трансформера? конкурент. количество геммороя которое огребается от обучения MoE мало чем отличается чем учить что то принципиально новое - опенсурса очень немного, ft условного qwen moe процедурна нетривиальная и болезненная.
Dense эксперты, используется N экспретов за токен, почитать тут
https://cameronrwolfe.substack.com/p/nano-moe
Gemma n - MatFormer
довольно умная идея - давать роутеру возможность выбрать сколько экспертов использовать на генерацию что дает неплохой прирост по скорости + экономию по параметрам
https://huggingface.co/google/gemma-3n-E4B-it-litert-preview
32к на input, картинки, аудио, штука интересная, по бенчмаркам сопоставима с 4b gemma