замены нет. Или есть? современные замены трансформеров

Вот тут более строгий доклад: https://www.latent.space/p/2024-post-transformers

хоть и старый

У интервьюверов есть привычка спрашивать: а какие минусы трансформера?

В ответе ожидается бла бла про n**2 в attn и что вообще тяжело длинные контектсы(2022 передает вам привет) и в качестве оптимизаций все как один ждут бреда про linear attn, если интервьювер прогрессивный и контора получше то про flash и гибридные архитектуры

внимательно смотяр на график мы понимаем что:

baseline трансформер с FA работает лучше чем naive linear attn до 100к токенов
нас наебали?

к слову в случае с тупыми или/и мелкими моделями архитектурные изменения мало что меняют, до нескольких Billions параметров то что вы вкатили 2ln вместо одного или сделали очердной вариант атеншена то это мало на что влияет.

спойлер: про linformerы написано несколько сотен НАХУЙ НЕ НУЖНЫХ А* статей, защищено куча работ и при этом оно юзлесс. прям совсем. прям недлячего.

А из-за того что оно в не лучше выходит так что это не оптимизируется не поддерживается и по итогу никто не пишет оптимизации или даже банальные интеграции в трансформеры.

К слову то же направление мысли было в BigBird

ну типа лучше, но по итогу нормально и не поехало, хотя и сильно толкнуло вперед всякие варианты SPARSE SWA и прочие хитрые маски

Mamba, rwkv и прочий постчатгпт хайп

про них писали все. не хайповал только ленивый.

внутри хитрая вариация RNN + atttn накрученная соверменными оптимизациями чтобы оно работало быстрее чем стандартные лламы, куча архитектурных приколов, поддержано в HF и.... почти никому не нужно?

есть довольно обстоятельный текст от небиуса, почитайте сами если надо https://nebius.com/blog/posts/model-pre-training/transformer-alternatives-2024

MOE

конкурент dense трансформера? конкурент. количество геммороя которое огребается от обучения MoE мало чем отличается чем учить что то принципиально новое - опенсурса очень немного, ft условного qwen moe процедурна нетривиальная и болезненная.

Dense эксперты, используется N экспретов за токен, почитать тут

https://cameronrwolfe.substack.com/p/nano-moe

Gemma n - MatFormer

довольно умная идея - давать роутеру возможность выбрать сколько экспертов использовать на генерацию что дает неплохой прирост по скорости + экономию по параметрам

https://huggingface.co/google/gemma-3n-E4B-it-litert-preview

32к на input, картинки, аудио, штука интересная, по бенчмаркам сопоставима с 4b gemma