Aleksandr on Teletype

замены нет. Или есть? современные замены трансформеров

Вот тут более строгий доклад: https://www.latent.space/p/2024-post-transformers

1 108

Time to think

Первое что стоит понимать про любой RLHF этап - это скам. Не в том смысле что две задачи МЛя, а в том смысле что: Твой ревард может легко ломатся, ревард может быть хорошим для одной задачи и ОЧЕНЬ плохим для другой. Пример: вы построили десять мостов, написали три книжки и получили -1. Вопрос: за что вы получили -1 ревард?

1.7K

AleksandrDecember 14, 2024

Cамогоная llm4

Год назад я шутил что phi3 будет лучше чем gpt4.

830

AleksandrApril 28, 2024

Physics of Language Models

Короче обзор фейсбучной статьи - люди проводят пачки абалейшенов и они НЕ БЕСПОЛЕЗНЫЕ!!! прикиньте да, можно не просто менять gelu на relu, а думать и считать. Я вот охуел.

1 465

AleksandrApril 21, 2024

Open sora? Hype or not?

Короче сегодня будет пояснять за самую хайповую китайскую поделку этой весны - OpenSora.

750

AleksandrMarch 29, 2024

DBRX - MoE в fp8 за 130

Среди LLMщиков есть распространенный сетап обучения - если хотите нормально претренить модель: учите в bf16+adamw_образны(laion, adafactor, alan, вариаций много 2momentum остается) и с zero3/fullshard или аналогом. Тогда не ебанет и скорее всего дефолт параметры +- поедут нормально, а не как обычно

656

AleksandrFebruary 19, 2024

Large World Model (LWM)

ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models

754

AleksandrFebruary 3, 2024

Лучшие вайфу - со смешанной генетикой. Кто такой models merging?

Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)

744

AleksandrJanuary 19, 2024

альфа геометри - решаем егэ по цене репетитора

2006 год теперь можно легально ебать, а значит ресечеры из дипмайнда расчехлили свои кластера и пошли ебать метод. 2006 года. Твердо и четко.

912

AleksandrDecember 17, 2023

я начинаю хайповать по МоЕ и вам тоже стоит, и ВОТ ПОЧЕМУ

те кто давно на меня подписаны знают что я довольно скептически отношусь к СВЕРХ массивным моделям - да круто, мы обязательно туда придем, но это игрушки для безмерно богатых ребят, на такого размера графах сложно строить продукты - как правило они не влезают в одну ноду(для TPU это не так критично - там сеть заметно быстрее), в итоге на середину 2023 года мы имели примерно такую картинку:

1.7K