<?xml version="1.0" encoding="utf-8" ?><feed xmlns="http://www.w3.org/2005/Atom" xmlns:tt="http://teletype.in/" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/"><title>Aleksandr</title><author><name>Aleksandr</name></author><id>https://teletype.in/atom/alexwortega</id><link rel="self" type="application/atom+xml" href="https://teletype.in/atom/alexwortega?offset=0"></link><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><link rel="next" type="application/rss+xml" href="https://teletype.in/atom/alexwortega?offset=10"></link><link rel="search" type="application/opensearchdescription+xml" title="Teletype" href="https://teletype.in/opensearch.xml"></link><updated>2026-04-09T12:17:27.006Z</updated><entry><id>alexwortega:W_lth53e_cA</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/W_lth53e_cA?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>замены нет. Или есть? современные замены трансформеров</title><published>2025-06-29T17:15:19.605Z</published><updated>2025-06-29T17:22:59.333Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img2.teletype.in/files/55/e6/55e66034-2c37-4aba-a7d4-de1b3272c038.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img3.teletype.in/files/ee/38/ee38aac5-648e-4585-af34-8a54bf29b6ae.png&quot;&gt;Вот тут более строгий доклад: https://www.latent.space/p/2024-post-transformers</summary><content type="html">
  &lt;p id=&quot;BYTC&quot;&gt;Вот тут более строгий доклад: &lt;a href=&quot;https://www.latent.space/p/2024-post-transformers&quot; target=&quot;_blank&quot;&gt;https://www.latent.space/p/2024-post-transformers&lt;/a&gt;&lt;/p&gt;
  &lt;p id=&quot;DcPT&quot;&gt;хоть и старый&lt;/p&gt;
  &lt;p id=&quot;cR5H&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;2SUD&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;tDQ8&quot;&gt;&lt;br /&gt;У  интервьюверов есть привычка спрашивать: а какие минусы трансформера? &lt;/p&gt;
  &lt;p id=&quot;wWuK&quot;&gt;В ответе ожидается бла бла про n**2 в attn и что вообще тяжело длинные контектсы(2022 передает вам привет) и в качестве оптимизаций все как один ждут бреда про &lt;a href=&quot;https://arxiv.org/pdf/2006.04768&quot; target=&quot;_blank&quot;&gt;linear attn,&lt;/a&gt; если интервьювер прогрессивный и контора получше то про flash и гибридные архитектуры&lt;/p&gt;
  &lt;figure id=&quot;a4W9&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ee/38/ee38aac5-648e-4585-af34-8a54bf29b6ae.png&quot; width=&quot;658&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;JYHb&quot;&gt;внимательно смотяр на график мы понимаем что:&lt;/p&gt;
  &lt;ol id=&quot;pKAF&quot;&gt;
    &lt;li id=&quot;2QHy&quot;&gt;baseline трансформер с FA работает лучше чем naive linear attn до 100к токенов&lt;/li&gt;
    &lt;li id=&quot;mSy6&quot;&gt;нас наебали?&lt;/li&gt;
  &lt;/ol&gt;
  &lt;figure id=&quot;FOEo&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/27/15/2715d74e-a1e0-49ff-8b7f-4d7205ec7ee1.png&quot; width=&quot;1186&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;feaD&quot;&gt;к слову в случае с тупыми или/и мелкими моделями архитектурные изменения мало что меняют, до нескольких Billions параметров то что вы вкатили 2ln вместо одного или сделали очердной вариант атеншена то это мало на что влияет. &lt;/p&gt;
  &lt;p id=&quot;zDwu&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;8UjB&quot;&gt;спойлер: про linformerы написано несколько сотен НАХУЙ НЕ НУЖНЫХ А* статей, защищено куча работ и при этом оно юзлесс. прям совсем. прям недлячего.&lt;/p&gt;
  &lt;p id=&quot;mKaH&quot;&gt;А из-за того что оно в не лучше выходит так что это не оптимизируется не поддерживается и по итогу никто не пишет оптимизации или даже банальные интеграции в трансформеры. &lt;br /&gt;&lt;br /&gt;К слову то же направление мысли было в &lt;strong&gt;&lt;a href=&quot;https://arxiv.org/pdf/2007.14062&quot; target=&quot;_blank&quot;&gt;BigBird&lt;/a&gt;&lt;/strong&gt;    &lt;/p&gt;
  &lt;figure id=&quot;geNC&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/91/ec/91ec2b9e-f1fb-481d-b540-54ad4556ffe8.png&quot; width=&quot;1512&quot; /&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;8xnX&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/15/2c/152cc9d5-2c68-4cdb-9a43-67d9bbf503fb.png&quot; width=&quot;1568&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;a6zL&quot;&gt;ну типа лучше, но по итогу нормально и не поехало, хотя и сильно толкнуло вперед всякие варианты SPARSE SWA и прочие хитрые маски&lt;/p&gt;
  &lt;h2 id=&quot;5u0W&quot;&gt;Mamba, rwkv и прочий постчатгпт хайп&lt;/h2&gt;
  &lt;p id=&quot;YcgH&quot;&gt;про них писали все. не хайповал только ленивый. &lt;/p&gt;
  &lt;figure id=&quot;n8oM&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/22/da/22da7b83-4c82-4cdf-ab0d-4bccade20519.png&quot; width=&quot;1043&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;pGPj&quot;&gt;внутри хитрая вариация RNN + atttn накрученная соверменными оптимизациями чтобы оно работало быстрее чем стандартные лламы, куча архитектурных приколов, поддержано в HF и.... почти никому не нужно? &lt;/p&gt;
  &lt;p id=&quot;bWT4&quot;&gt;есть довольно обстоятельный текст от небиуса, почитайте сами если надо &lt;a href=&quot;https://nebius.com/blog/posts/model-pre-training/transformer-alternatives-2024&quot; target=&quot;_blank&quot;&gt;https://nebius.com/blog/posts/model-pre-training/transformer-alternatives-2024&lt;/a&gt;&lt;/p&gt;
  &lt;p id=&quot;ArkZ&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;gYGu&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;yNbt&quot;&gt;&lt;strong&gt;MOE&lt;/strong&gt;&lt;/h2&gt;
  &lt;p id=&quot;Rpco&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;lstb&quot;&gt;конкурент dense трансформера? конкурент. количество геммороя которое огребается от обучения MoE мало чем отличается чем учить что то принципиально новое - опенсурса очень немного, ft условного qwen moe процедурна нетривиальная и болезненная. &lt;br /&gt;&lt;br /&gt;Dense эксперты, используется N экспретов за токен, почитать тут &lt;/p&gt;
  &lt;p id=&quot;Qfbh&quot;&gt;&lt;a href=&quot;https://cameronrwolfe.substack.com/p/nano-moe&quot; target=&quot;_blank&quot;&gt;https://cameronrwolfe.substack.com/p/nano-moe&lt;/a&gt;&lt;/p&gt;
  &lt;p id=&quot;hFkD&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;SXDH&quot;&gt;Gemma n - MatFormer&lt;/h2&gt;
  &lt;figure id=&quot;YXTo&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/fc/24/fc247ba5-a9ea-4cf0-afc5-0f94688ed3aa.png&quot; width=&quot;1632&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;0wVd&quot;&gt;довольно умная идея - давать роутеру возможность выбрать сколько экспертов использовать на генерацию что дает неплохой прирост по скорости + экономию по параметрам &lt;/p&gt;
  &lt;p id=&quot;FzIj&quot;&gt;&lt;a href=&quot;https://huggingface.co/google/gemma-3n-E4B-it-litert-preview&quot; target=&quot;_blank&quot;&gt;https://huggingface.co/google/gemma-3n-E4B-it-litert-preview&lt;/a&gt;&lt;/p&gt;
  &lt;p id=&quot;TIlu&quot;&gt;32к на input, картинки, аудио, штука интересная, по бенчмаркам сопоставима с 4b gemma&lt;/p&gt;
  &lt;figure id=&quot;x4WW&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/5b/e6/5be675df-655e-4ee7-bdbe-d19812aaacd3.png&quot; width=&quot;1246&quot; /&gt;
  &lt;/figure&gt;

</content></entry><entry><id>alexwortega:zxuec4Lzvyz</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/zxuec4Lzvyz?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>Time to think</title><published>2025-01-21T15:58:48.199Z</published><updated>2025-01-21T15:58:48.199Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img2.teletype.in/files/d3/29/d3298574-851d-409e-9ce9-a183d208ee5a.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img2.teletype.in/files/5a/0d/5a0d0208-3d08-4484-85b3-bc68a2bee841.jpeg&quot;&gt;Первое что стоит понимать про любой RLHF этап - это скам. Не в том смысле что две задачи МЛя, а в том смысле что: Твой ревард может легко ломатся, ревард может быть хорошим для одной задачи и ОЧЕНЬ плохим для другой. 

Пример: вы построили десять мостов, написали три книжки и получили -1. Вопрос: за что вы получили -1 ревард?</summary><content type="html">
  &lt;figure id=&quot;DGcB&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/5a/0d/5a0d0208-3d08-4484-85b3-bc68a2bee841.jpeg&quot; width=&quot;3648&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;CtWt&quot;&gt;Первое что стоит понимать про любой RLHF этап - это скам. Не в том смысле что две задачи МЛя, а в том смысле что: Твой ревард может легко ломатся, ревард может быть хорошим для одной задачи и ОЧЕНЬ плохим для другой. &lt;br /&gt;&lt;br /&gt;Пример: вы построили десять мостов, написали три книжки и получили -1. Вопрос: за что вы получили -1 ревард?&lt;/p&gt;
  &lt;figure id=&quot;MXCI&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/0b/45/0b45899a-3992-4645-9926-a89fd70169f5.png&quot; width=&quot;1588&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;bNIE&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;FqfQ&quot;&gt;Отдельный прикол: RM стимулирует модели генерировать более длинные ответы  &lt;/p&gt;
  &lt;figure id=&quot;sm9o&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ef/22/ef22e3ba-4b0b-4071-8ce8-2a9aa521d185.png&quot; width=&quot;1174&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;OaX8&quot;&gt;Ну и доучилось до того что генерит в 3-4 раза БОЛЬШЕ токенов на ответ чем о1 от oai, &lt;s&gt;вот вам и time inference scaling&lt;/s&gt;&lt;/p&gt;
  &lt;p id=&quot;Jqhm&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;NFsG&quot;&gt;Что сделали?&lt;/h2&gt;
  &lt;p id=&quot;HYVD&quot;&gt;Авторы используют комбинацию из RM + rule based (на правилах)&lt;/p&gt;
  &lt;h2 id=&quot;BLlD&quot;&gt;Что не работает?&lt;/h2&gt;
  &lt;p id=&quot;82Rw&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;DJD1&quot;&gt;&lt;strong&gt;MCTS&lt;/strong&gt;&lt;/p&gt;
  &lt;p id=&quot;iAMQ&quot;&gt;Ну понятно, потому что поле поиска большое, модели с SFT/RLHF этапом менее разнообразные, масштабируется с нюансами&lt;/p&gt;
  &lt;p id=&quot;zIUi&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;gERK&quot;&gt;&lt;strong&gt;PRM/BON&lt;/strong&gt;&lt;/p&gt;
  &lt;p id=&quot;Daaj&quot;&gt;Reward hacking+авторам не понравилось&lt;/p&gt;
  &lt;p id=&quot;OnYB&quot;&gt;Буквально цитата;&lt;/p&gt;
  &lt;blockquote id=&quot;7QxP&quot;&gt;In conclusion, while PRM demonstrates a good ability to rerank the top-N responses generated by the model or assist in guided search (Snell et al., 2024), its advantages are limited compared to the additional computational overhead it introduces during large-scale reinforcement learning process in our experiments.&lt;/blockquote&gt;

</content></entry><entry><id>alexwortega:qLTfc-M_2HT</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/qLTfc-M_2HT?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>Cамогоная llm4</title><published>2024-12-14T22:31:15.973Z</published><updated>2024-12-14T22:31:15.973Z</updated><summary type="html">Год назад я шутил что phi3 будет лучше чем gpt4.</summary><content type="html">
  &lt;p id=&quot;dr2b&quot;&gt;Год назад я шутил что phi3 будет лучше чем gpt4. &lt;/p&gt;
  &lt;figure id=&quot;qecL&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c1/88/c188d5bc-dc39-4b52-beee-decc8f84239a.png&quot; width=&quot;423&quot; /&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;yMxo&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/cb/9f/cb9f6284-dbc2-4b48-a8d0-e9bee26124da.png&quot; width=&quot;1088&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Psmg&quot;&gt;Ну, as you see, опять я оказался прав. (шучу, опять оверфит на бенчи, хотя модель ОЧЕНЬ хороша)&lt;/p&gt;
  &lt;p id=&quot;2nij&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;fR7B&quot;&gt;&lt;strong&gt;ДАННЫЕ ЧИСТИТЕ ЧИСТО &lt;/strong&gt;&lt;/h2&gt;
  &lt;p id=&quot;bgk4&quot;&gt;&lt;strong&gt;10T токенов. Это все что вам надо знать и понимать почему phi4 заебись.&lt;/strong&gt;&lt;/p&gt;
  &lt;p id=&quot;9HR3&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;AzLy&quot;&gt;Собственно оригинальные(1,1.5) phi были про то что: если дистилировать gpt4 то выходит хорошо.&lt;br /&gt;В PHI4 на уровне подготовки претрена загатавливают базу под алаймент, суть та же: Давайте попросим соберем очень качественные seedы промптов + cбор претрена из webcrawl такого чтобы он был чистый.&lt;/p&gt;
  &lt;h3 id=&quot;IFMZ&quot;&gt;&lt;br /&gt;Про web crawl &lt;/h3&gt;
  &lt;ul id=&quot;ra62&quot;&gt;
    &lt;li id=&quot;5jql&quot;&gt;Отфильтруем по источникам, нам нужен только чистые доки- arxiv, pubmed, gh и прочее&lt;/li&gt;
    &lt;li id=&quot;HL8u&quot;&gt;Профильтруем general webcrawl по инженерным кейвордам&lt;/li&gt;
    &lt;li id=&quot;ZO0L&quot;&gt;Сбаланисируем MT часть на 176(!)языков &lt;/li&gt;
    &lt;li id=&quot;ymxv&quot;&gt;Отфильтруем из XML все плохое что есть&lt;/li&gt;
  &lt;/ul&gt;
  &lt;h3 id=&quot;Jhe1&quot;&gt;Про синту&lt;/h3&gt;
  &lt;p id=&quot;WxGV&quot;&gt;400b всего&lt;/p&gt;
  &lt;ul id=&quot;lr2N&quot;&gt;
    &lt;li id=&quot;pXjd&quot;&gt;из кода и веба делают затравки по аналогии с Instructor(просят переписать код/сделать какую то операцию с текстом)&lt;/li&gt;
    &lt;li id=&quot;nrmO&quot;&gt;Q/A датасеты фильтранули чтобы они не были слишком простыми&lt;/li&gt;
    &lt;li id=&quot;tpV9&quot;&gt;Incstruction following задачи генерировали обратно - просили написать инструкцию для кода который уже есть(!)&lt;/li&gt;
  &lt;/ul&gt;
  &lt;h3 id=&quot;ggEV&quot;&gt;Про число повторов/эпох&lt;/h3&gt;
  &lt;ul id=&quot;Qayj&quot;&gt;
    &lt;li id=&quot;uDTe&quot;&gt;до 20 повторений некоторых особо чистых источнников(sic!)&lt;/li&gt;
    &lt;li id=&quot;cB8W&quot;&gt;12 эпох затравок из синты&lt;/li&gt;
    &lt;li id=&quot;ZmuP&quot;&gt;Синта сильно докидывает для сложных бенчей&lt;/li&gt;
    &lt;li id=&quot;6uWB&quot;&gt;Модели &lt;strong&gt;обученные только на синте &lt;/strong&gt;очень плохи в&lt;strong&gt; real world knoweldge (shoked pickachu face)&lt;/strong&gt;&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;PIFI&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;f2Mr&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;iwcg&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/86/28/86286b4e-7309-463a-9b6c-eea1b4b26085.png&quot; width=&quot;950&quot; /&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;7PSn&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/af/8e/af8ed816-bc87-4246-bb3c-24ffeff2c10b.png&quot; width=&quot;397&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;riV4&quot;&gt;Датамикс конечно мое почтение&lt;/p&gt;
  &lt;p id=&quot;ufS8&quot;&gt;&lt;/p&gt;
  &lt;h3 id=&quot;wfM2&quot;&gt;Midtraining Details&lt;/h3&gt;
  &lt;p id=&quot;90wN&quot;&gt;Идея простая - мы хотим иметь большой контекст(больше 10к) Такой длинны синты в природе нет и конкатить их очень сложно. Давайте возьмем книги, статьи, и код(репозитории) и соберем их этого в соотношении 30/70(30 новых данных и 70 их претрена) датасет на&lt;strong&gt; 250B  &lt;/strong&gt;токенов для длинного контекста.&lt;/p&gt;
  &lt;figure id=&quot;Aant&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/d7/1e/d71efeba-456d-4296-ac36-092083de3d30.png&quot; width=&quot;573&quot; /&gt;
  &lt;/figure&gt;
  &lt;blockquote id=&quot;vjXp&quot;&gt;Качество выходит очень близко к моделям которые бежали либо х2 токенов как Qwen либо сами по себе больше(llama 70b)&lt;/blockquote&gt;
  &lt;figure id=&quot;2csz&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/83/1f/831f4994-da82-4adb-ba87-edde437378f8.png&quot; width=&quot;1440&quot; /&gt;
    &lt;figcaption&gt;мне лень переписывать, сами почитайте что они имеют ввиду&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;h2 id=&quot;oVw6&quot;&gt;SFT&lt;/h2&gt;
  &lt;p id=&quot;245j&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;e10S&quot;&gt;Известный на западе как Instruction Tuning и на востоке как ЧоБля?&lt;/p&gt;
  &lt;p id=&quot;8RzL&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;NTFK&quot;&gt;Коротко: 8б токенов, 40 языков, chatml(слава блять богу)&lt;/p&gt;
  &lt;p id=&quot;893C&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;Oy4N&quot;&gt;А вот про DPO интересно, челы изобретают что то типа online dpo, но тк openai не принадлежит майкрасофт - они гоняют в качестве RM gpt4o которая смотрит на последовательность и прикидывает когда модель начинает лажать.&lt;br /&gt;&lt;/p&gt;
  &lt;figure id=&quot;xlJ2&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/82/a6/82a661ec-7e26-47fe-89b1-20265e0547d6.png&quot; width=&quot;1456&quot; /&gt;
    &lt;figcaption&gt;\&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;k8Ku&quot;&gt;И финальный датасет выглядит так:&lt;br /&gt;&lt;/p&gt;
  &lt;figure id=&quot;oCGC&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/4a/05/4a053114-70e3-4dc2-9744-6e294df377ee.png&quot; width=&quot;1422&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;slte&quot;&gt;Ну и типа бьет все, хотя метод оригинальный и выглядит полезным.&lt;/p&gt;

</content></entry><entry><id>alexwortega:CLZZc3E9Ci3</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/CLZZc3E9Ci3?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>Physics of Language Models</title><published>2024-04-28T10:23:24.926Z</published><updated>2024-04-28T10:23:24.926Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img4.teletype.in/files/78/4c/784c611e-41ab-4ed9-86f4-065aed0cd08e.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img1.teletype.in/files/03/a3/03a36236-da52-429f-ba2f-505781aaccbb.png&quot;&gt;Короче обзор фейсбучной статьи - люди проводят пачки абалейшенов и они НЕ БЕСПОЛЕЗНЫЕ!!! прикиньте да, можно не просто менять gelu на relu, а думать и считать. Я вот охуел.</summary><content type="html">
  &lt;figure id=&quot;Yt2y&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/03/a3/03a36236-da52-429f-ba2f-505781aaccbb.png&quot; width=&quot;800&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;GZFR&quot;&gt;Короче обзор фейсбучной статьи - люди проводят пачки абалейшенов и они НЕ БЕСПОЛЕЗНЫЕ!!! прикиньте да, можно не просто менять gelu на relu, а думать и считать. Я вот охуел.&lt;/p&gt;
  &lt;p id=&quot;6hHN&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;yYWs&quot;&gt;Немного терминов которые авторы используют в статье, а я буду переиспользовать.&lt;/p&gt;
  &lt;ul id=&quot;v5C6&quot;&gt;
    &lt;li id=&quot;ahaW&quot;&gt;Knoweledge pieces - куски знания, те модель точно отвечает что &amp;quot;Этот прекрасный мир&amp;quot; - лучшее аниме. Или например точно отвечает на вопросы про скорость света и тд&lt;/li&gt;
    &lt;li id=&quot;WTd5&quot;&gt; Bit Complexity and Capacity Ratio - мы считаем с какого размера модель может выучить N bit информации и с бОльшой вероятность воспроизводить&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;zySR&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;lmf2&quot; class=&quot;m_column&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/ff/83/ff83d867-6a74-40d3-b377-ffca06d7f59a.png&quot; width=&quot;1732&quot; /&gt;
    &lt;figcaption&gt;пример &lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;uZHc&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;hWlk&quot;&gt;В качестве примеров данных они используют  такой датасет синты, что то типа викепедии только сильно проще и более контролируемое+ дополнительно переписали на llama2 чтобы докинуть &amp;quot;шума&amp;quot;&lt;/p&gt;
  &lt;figure id=&quot;Dm4g&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/58/cd/58cd8b83-cd4f-4506-a215-9badaca06875.png&quot; width=&quot;895&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;ihRa&quot;&gt;Всего размер такого датасета где то 23gb&lt;/p&gt;
  &lt;p id=&quot;1QcA&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;ZRKI&quot;&gt;Качество сжатия(bit complexity) считается таким образом&lt;/p&gt;
  &lt;figure id=&quot;d97D&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/d9/1e/d91e39a0-9306-4f8f-bd81-18d42ee6986a.png&quot; width=&quot;880&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;128h&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;81iM&quot;&gt;Capacity Ratio&lt;/h2&gt;
  &lt;figure id=&quot;oWBy&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c2/fa/c2faa357-c664-46f7-906b-9e4b53a65761.png&quot; width=&quot;889&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;0cjR&quot;&gt;Для модели F c числом параметров P, обученной на датасете &lt;/p&gt;
  &lt;figure id=&quot;QFFL&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/7a/bc/7abc5d0e-256d-4530-b061-2ceee9de343d.png&quot; width=&quot;1858&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;PrlZ&quot;&gt;По оси Y у нас то сколько модель выучивает знаний, по оси X у нас размер модели, а N это количество сущностей в данных которые показывают модели.&lt;/p&gt;
  &lt;p id=&quot;fLUj&quot;&gt;Каждая циферка у точки это соотношение глубины-ширины те 20-16 означает 20 слоев и 16 голов&lt;/p&gt;
  &lt;p id=&quot;OdB7&quot;&gt;Левый график соотвествует 1000 повторений данных, правый - 100 повторений данных&lt;/p&gt;
  &lt;p id=&quot;eYH3&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;pfxH&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;bAzY&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;VQiG&quot;&gt;Base Scaling Laws&lt;/h2&gt;
  &lt;p id=&quot;T2l9&quot;&gt;1) 1000 проходов вики гарантирует что модель будет знать основную фактологию, но если будет common crawl качество данных - понадобиться миллион повторений, см график слева(вики лайк) и справа(CC like)&lt;/p&gt;
  &lt;figure id=&quot;1axw&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/fe/34/fe3473b4-62c3-4e1c-b06d-2f77f6d7759b.png&quot; width=&quot;981&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;RBPr&quot;&gt;Модели с коэфом сжатия 1.8 в целом хороши, выше смысла особо нет&lt;/p&gt;
  &lt;h3 id=&quot;3gVS&quot;&gt;Knoweledge extraction&lt;/h3&gt;
  &lt;p id=&quot;vPlV&quot;&gt;Важная ремарка - речь о сжатии 2бит/параметр не означает что модель выучивает 1в1 википедию, это озночает что после ft на задачу qa модель будет увренно и правильно отвечать &amp;quot;кто когда родился&amp;quot;, &amp;quot;а мог ли ленин встретится с гитлером&amp;quot; и прочее&lt;/p&gt;
  &lt;p id=&quot;Gneq&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;iWQA&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;0cmH&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;Cvvc&quot;&gt;Data Formats — Diversity and Rewriting&lt;/h2&gt;
  &lt;figure id=&quot;D4Jy&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/a4/6c/a46ca738-934e-4a9f-8d53-5b104d22074e.png&quot; width=&quot;2040&quot; /&gt;
    &lt;figcaption&gt;ебать картинка страшная&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Lrv7&quot;&gt;K - количество уникальных фич в датасете - ну номера паспортов, даты, токены и прочее&lt;/p&gt;
  &lt;p id=&quot;tdy0&quot;&gt;T - размер словаря&lt;/p&gt;
  &lt;p id=&quot;I1ic&quot;&gt;L,C - длинна чанка знаний&lt;/p&gt;
  &lt;p id=&quot;icS2&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;ls4h&quot;&gt;Когда авторы переписывали через LLama2  свои фактические датасеты, llama2 неизбежно галюны выдавала и в целом ломалась переодически, а значит в данные добавлялся реальный шум.&lt;/p&gt;
  &lt;p id=&quot;0YWu&quot;&gt; &lt;/p&gt;
  &lt;p id=&quot;r1B1&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;7ynl&quot;&gt;Training Time vs Scaling Law&lt;/h2&gt;
  &lt;figure id=&quot;lb7W&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/2e/26/2e263020-4f68-4ef5-be0c-baef24b750bf.png&quot; width=&quot;1348&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;FYqk&quot;&gt;Логика такая, что если хотите достичь максимальной точности нужно где то 1000 повторений, если хотите оптимальной - 100 хватит с головой&lt;/p&gt;
  &lt;p id=&quot;U54g&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;B665&quot;&gt;Model Architecture vs Scaling Law&lt;/h2&gt;
  &lt;figure id=&quot;WJvk&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/72/ae/72ae5d4c-f55d-4886-a362-d170d269371c.png&quot; width=&quot;2036&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;FkTm&quot;&gt;Краткая справка для тех кто не ебет чем ллама от мистраля отличается&lt;/p&gt;
  &lt;section style=&quot;background-color:hsl(hsl(0, 0%, var(--autocolor-background-lightness, 95%)), 85%, 85%);&quot;&gt;
    &lt;p id=&quot;Eium&quot;&gt;1) LLaMA/Mistral используют так называемые слои GatedMLP, которые представляют собой V (σ(W1x)·(W2x)) вместо V σ(W x).&lt;/p&gt;
    &lt;p id=&quot;Yy3i&quot;&gt;2. В отличие от GPT2, LLaMA/Mistral не используют связывание весов.&lt;/p&gt;
    &lt;p id=&quot;FfGW&quot;&gt;3. Mistral имеет более широкие MLP по сравнению с GPT2/LLaMA.&lt;/p&gt;
    &lt;p id=&quot;UXed&quot;&gt;4. Mistral использует group query attention, в отличие от GPT2/LLaMA.&lt;/p&gt;
    &lt;p id=&quot;BCxM&quot;&gt;5. LLaMA/Mistral используют другой токенизатор, чем GPT2.&lt;/p&gt;
    &lt;p id=&quot;JVJQ&quot;&gt;6. GPT2 использует функцию активации gelu, LLaMA/Mistral предпочитают silu.&lt;/p&gt;
    &lt;p id=&quot;LPNS&quot;&gt;7. GPT2 реализует нормализацию слоев с обучаемым bias&lt;/p&gt;
  &lt;/section&gt;
  &lt;p id=&quot;pgQx&quot;&gt;Исходя из метрик авторы говорят: особой разницы и прироста нет, везде примерно одинаковые цифры, забейте. Учите то что лучше учится. &lt;/p&gt;
  &lt;p id=&quot;Aga6&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;S6Y3&quot;&gt;Insufficient Training Regime and a Closer Comparison&lt;/h2&gt;
  &lt;figure id=&quot;yKyD&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/df/76/df769fe1-8f1a-4749-8b25-478d795c13c6.png&quot; width=&quot;1962&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Q1hy&quot;&gt;1) А тут интересно, если у нас не оптимальный режим обучения(lr) то &lt;strong&gt;llama работает в 1.3 раза хуже чем gpt2&lt;/strong&gt;&lt;/p&gt;
  &lt;p id=&quot;6DyE&quot;&gt;2) если выкинуть mlp модель тупеет в 1.5 раза&lt;/p&gt;
  &lt;p id=&quot;GVi1&quot;&gt;3) если порезать 1/4 mlp то разницы особо нет &lt;/p&gt;
  &lt;p id=&quot;Evi0&quot;&gt;4) Если заменить llama gated mlp на нормальный, то работает лучше&lt;/p&gt;
  &lt;p id=&quot;ysCo&quot;&gt;5) замена токенайзера сильно роляет для мелких моделей&lt;/p&gt;
  &lt;p id=&quot;gWZ6&quot;&gt;5) silu/gelu -вообще похуй, влияния на capacity нет&lt;/p&gt;
  &lt;p id=&quot;3gQF&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;13w2&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/6a/99/6a99b9ea-72c7-4497-8148-3e9cd4679a60.png&quot; width=&quot;1838&quot; /&gt;
    &lt;figcaption&gt;ну собственно чекаем ебало&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;nrP5&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;Blrk&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;RBAH&quot;&gt;Quantization vs Scaling Laws&lt;/h2&gt;
  &lt;p id=&quot;j4oj&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;6rn5&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/8d/6f/8d6ff0dc-049a-4408-8fc1-22ee52d2776c.png&quot; width=&quot;934&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;vqmd&quot;&gt;В целом все понятно, при уменьшении с fp16-&amp;gt; fp8 разницы нет, в fp4 вам пизда все хуже в 2 раза&lt;/p&gt;
  &lt;h2 id=&quot;8ogn&quot;&gt;Mixture of Experts vs Scaling Laws&lt;/h2&gt;
  &lt;figure id=&quot;93Xl&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/e0/95/e095f6f6-6013-466c-ba76-682009b39a47.png&quot; width=&quot;1538&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;HlVy&quot;&gt;МОЕ убивает 30% если показали 1000 раз и 50% если показали 100 раз. Короче приемлимо&lt;/p&gt;
  &lt;p id=&quot;XuqR&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;cR6c&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;SdHb&quot;&gt;Junk Data vs Scaling Laws&lt;/h2&gt;
  &lt;p id=&quot;u1Rm&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;PCmT&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/dc/f4/dcf46591-10eb-41ba-9531-03b8fb746285.png&quot; width=&quot;803&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;QaYW&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;GbWT&quot;&gt;Короче если доливать мусорные данные - модель будет намного хуже(в 20 раз). фильтрация - наше все.&lt;/p&gt;
  &lt;p id=&quot;eiis&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;1bE7&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c2/fe/c2fee4e9-0ede-4c37-b79b-5b7a8067bce5.png&quot; width=&quot;1838&quot; /&gt;
  &lt;/figure&gt;

</content></entry><entry><id>alexwortega:zbsoE9w6A6R</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/zbsoE9w6A6R?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>Open sora? Hype or not?</title><published>2024-04-21T13:27:00.707Z</published><updated>2024-04-21T13:32:17.857Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img2.teletype.in/files/17/83/17836d27-9c75-4b62-b0f2-bbe3587361e5.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img1.teletype.in/files/8a/01/8a011e4b-c861-49bd-8fc9-10c340404cbc.png&quot;&gt;Короче сегодня будет пояснять за самую хайповую китайскую поделку этой весны - OpenSora.</summary><content type="html">
  &lt;p id=&quot;rLdQ&quot;&gt;Короче сегодня будет пояснять за самую хайповую китайскую поделку этой весны - OpenSora.&lt;/p&gt;
  &lt;p id=&quot;7Ljm&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;qOEV&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/8a/01/8a011e4b-c861-49bd-8fc9-10c340404cbc.png&quot; width=&quot;448&quot; /&gt;
    &lt;figcaption&gt;это не модель мира если она не от open ai и не очень красивая &lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;GghI&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;iPkp&quot;&gt;Back to the roots&lt;/h2&gt;
  &lt;p id=&quot;nYwr&quot;&gt;Помните была такая dalle1? ну которая картинки, vqvae токены и вот это все. Ну так вот, если у тебя есть модель которая может генерить 256*256 картинку, значит у тебя есть модель которая может генерить 4 картинки 128*128. Или 8 картинок  64*64&lt;/p&gt;
  &lt;figure id=&quot;ujER&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/a3/ed/a3ed7c3f-8a10-4514-8886-b6682556fac4.png&quot; width=&quot;848&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;x0x8&quot;&gt;ну вот, так работала &lt;a href=&quot;https://github.com/wilson1yan/VideoGPT&quot; target=&quot;_blank&quot;&gt;https://github.com/wilson1yan/VideoGPT&lt;/a&gt; и пачка китайских работ про которые я не хочу говорить, ну собственно если вы готовы генерить 1м токенов то 1минутное видео с частотой 60fps не очень то и большая проблема. &lt;/p&gt;
  &lt;p id=&quot;WGf5&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;sNEM&quot;&gt;С вас две почки и ваша мать за компьют на ring attention.&lt;/p&gt;
  &lt;p id=&quot;H1Ms&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;JiPT&quot;&gt;Мы нищие, значит претрен с нуля не наш путь&lt;/h2&gt;
  &lt;p id=&quot;e50f&quot;&gt;Короче что такое видео? это последовательность картинок. Проще говоря для того чтобы из картиночной модели сделать video достаточно доложить temporal канал &lt;a href=&quot;https://imagen.research.google/video/&quot; target=&quot;_blank&quot;&gt;imagen.research.google/video/&lt;/a&gt;&lt;/p&gt;
  &lt;figure id=&quot;hcAv&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/6a/e7/6ae72bff-045e-4a40-ae50-fe888291b9a8.png&quot; width=&quot;891&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;sBnn&quot;&gt;cобственно гугл придумал это еще летом 22, но произошел амнезия инцедент и все на это забили. Хотя в целом никаких ограничений чтобы сделать тоже самое с SD1.4 не было. &lt;/p&gt;
  &lt;h2 id=&quot;FZ0c&quot;&gt;Проходит пол года и выходит align your latents&lt;/h2&gt;
  &lt;figure id=&quot;31Lf&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ef/76/ef7691ab-bcf8-48c9-9492-5a3452f4acb1.png&quot; width=&quot;695&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;vgfq&quot;&gt;Пресловатая SD, но тут используют встройки temporal layer_ов которые в свою очередь опирируют батчем латентов из 8 кадров. Те размер такого темпорал лайера = [число кадров,  latent_dim ]. к слову так же построены &lt;a href=&quot;https://stability.ai/news/stable-video-diffusion-open-ai-video-model&quot; target=&quot;_blank&quot;&gt;https://stability.ai/news/stable-video-diffusion-open-ai-video-model&lt;/a&gt; от того же робина ромбаха&lt;/p&gt;
  &lt;p id=&quot;2aHp&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;Cncc&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;ddfH&quot;&gt;к баранам, ой в смысле трансформерам&lt;/h2&gt;
  &lt;p id=&quot;daEu&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;hA4n&quot;&gt;короче если у вас есть видео которое по сути картинки, то вы очень захотите его сжать по RGB и tempora,  быстро пробежимся по тому как это делается &lt;/p&gt;
  &lt;p id=&quot;59fh&quot;&gt;Ну есть три работы magvit1-2 и cavvit. про вторую почитаете сами, а я про &lt;a href=&quot;https://magvit.cs.cmu.edu/&quot; target=&quot;_blank&quot;&gt;magvit&lt;/a&gt; расскажу &lt;/p&gt;
  &lt;figure id=&quot;XGSQ&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/80/8e/808eb782-387c-4feb-84b9-93bd1b0cc648.png&quot; width=&quot;1197&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Kbif&quot;&gt;Меня всегда забавляло что в сообществе называют такие архитектуры Video/Image tokenizer_ом, хотя очевидно к токенизации оно отношения не имеет&lt;/p&gt;
  &lt;p id=&quot;2Xad&quot;&gt;&lt;/p&gt;
  &lt;section style=&quot;background-color:hsl(hsl(0, 0%, var(--autocolor-background-lightness, 95%)), 85%, 85%);&quot;&gt;
    &lt;figure id=&quot;g3mo&quot; class=&quot;m_original&quot;&gt;
      &lt;img src=&quot;https://img1.teletype.in/files/03/e4/03e4ca14-f22b-43e9-8558-e28099570ab2.png&quot; width=&quot;1042&quot; /&gt;
      &lt;figcaption&gt;а, еще оно умеет привторятся не трансформером, а диффузией, те может предсказывать паралельно ОЧЕНЬ много токенов картинки. Зачем? ДА ЭТОЖ КРУТО!!&lt;/figcaption&gt;
    &lt;/figure&gt;
  &lt;/section&gt;
  &lt;figure id=&quot;ajCe&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/9a/6e/9a6ec440-24dd-488e-9c9c-cfc0952edbab.png&quot; width=&quot;1030&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;TzrR&quot;&gt;Cобственно в чем идея - у нас есть сжималка для видео - мы сжимаем N_frames*H*W в размерность N_FRAMES/1.3*64*64 ~ те это вполне себе штука с которой удобно работать, а еще и сжатая по тайм оси, мы не богатые, токены не бесплатные.&lt;/p&gt;
  &lt;p id=&quot;sXKK&quot;&gt;А потом учится трансформер на таких &amp;quot;токенах&amp;quot;, по старой гугловой традиции учится мультитаск, например может предсказать новые виды или сделать из картинки/видео 1:1 картинку/видео 16:9&lt;/p&gt;
  &lt;p id=&quot;3i1j&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;JEs7&quot;&gt;Video poet&lt;/h2&gt;
  &lt;p id=&quot;CWCm&quot;&gt;Работа которую пропустили почти все(?) мои знакомые блогеры, хотя работа довольно любопытная&lt;/p&gt;
  &lt;p id=&quot;yeZO&quot;&gt; &lt;/p&gt;
  &lt;figure id=&quot;fROu&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/82/15/82152b01-ee13-4462-9b8e-fbb41bf7988d.png&quot; width=&quot;1329&quot; /&gt;
    &lt;figcaption&gt;https://sites.research.google/videopoet/&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;KCgc&quot;&gt;Собственно идея простая, берем и скейлим magvit, но еще докидываем токенезацию для аудио. Круто!!&lt;/p&gt;
  &lt;p id=&quot;rudV&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;CqVX&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/d9/93/d993ea3c-25d4-4c1d-ab01-5a28eeac009a.png&quot; width=&quot;1016&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;L9Gv&quot;&gt;Но вероятно модель была пиздец какой медленной + огромной + гуглу надо закопать еще одну крутую штуку на кладбище. НУ и закопали, хули)))&lt;/p&gt;
  &lt;figure id=&quot;H5j4&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/b5/d5/b5d5044d-f71f-4d3a-bd81-2260fd084ef5.png&quot; width=&quot;1338&quot; /&gt;
    &lt;figcaption&gt;собственно эээ dalle1 на стероидах странных категорий &lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;qKHL&quot;&gt;Через пол годика опенаи докинет аудио токены в сору и вот тогда будут бурления в интернетах: ААААА, ВОРЛД МОДЕЛЬ ПОНИМАЕТ АУДИО, МЫ В МАТРИЦЕ. &lt;/p&gt;
  &lt;p id=&quot;heDL&quot;&gt;пиздец.&lt;/p&gt;
  &lt;p id=&quot;yaIs&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;x1iZ&quot;&gt;Latte &lt;/h2&gt;
  &lt;figure id=&quot;bRjb&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/d3/c7/d3c7dcb0-9b79-425a-94b5-ef36d759aab2.png&quot; width=&quot;801&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;5ikH&quot;&gt;Собственно что у нас тут, DIT ака трансформер который инферят и учат как диффузию, при этом авторы проводят АБАЛЕЙШН АРХИТЕКТУР И ОН НЕ БЕСПОЛЕЗНЫЙ!!!!(прикинитье можно не только тупо SELF attn махнуть на conv но и что то поумнее сделать)&lt;/p&gt;
  &lt;h2 id=&quot;y4NL&quot;&gt;архитектурные экспы в latte&lt;/h2&gt;
  &lt;p id=&quot;MiSC&quot;&gt;1) Давайте возьмем Temporal(по кадрам) и Spatial (по сути на токены), а размерность входа выхода получается NUM_FRAMES*TOKEN_PER_FRAME(где то 1024 токена на фрейм) &lt;/p&gt;
  &lt;figure id=&quot;B2nN&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/55/5e/555ed03a-2369-43a3-a020-05421dfbb105.png&quot; width=&quot;356&quot; /&gt;
    &lt;figcaption&gt;проще говоря, суют кадры последовательно в трансформер и не выебываются&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;jK0o&quot;&gt;2)Все тоже самое, просто в начале spatial, потом temporal блоки&lt;/p&gt;
  &lt;p id=&quot;Yt5L&quot;&gt;3)Тут все довольно просто, давайте возьмем  и в один и тот же трансформер блок пихнем и temporal и spatial фичи. Так победим.&lt;/p&gt;
  &lt;p id=&quot;Skzc&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;Wa4u&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;MLpT&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;cJ8m&quot;&gt;Пиздатые идеи для резерча&lt;/h2&gt;
  &lt;p id=&quot;liMH&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;Kmi8&quot;&gt;1) Авторы говорят, учить целиком дифужн трансформер - не наш путь, мы заинитим весами просто DIT который учился на ImageNet, а лейблы переделаем. А позиции токенов переинтим по аналогии с ROPE.&lt;/p&gt;
  &lt;p id=&quot;MCeT&quot;&gt;2) Давайте докинем фреймы из видео в претрен сет, нам полезно не забывать что видео это вообще то картинки&lt;/p&gt;
  &lt;figure id=&quot;YodX&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c1/fe/c1feddb1-9398-4313-a646-cc24df67c0f1.png&quot; width=&quot;311&quot; /&gt;
    &lt;figcaption&gt;рил неплохо докинуло&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;2pFa&quot;&gt;3)&lt;/p&gt;
  &lt;figure id=&quot;HkVc&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/39/d6/39d6a4a2-0d48-49c0-aa49-d40effa4918d.png&quot; width=&quot;725&quot; /&gt;
    &lt;figcaption&gt;авторам хуй стоит пожать за такой резерч, очень уважаемо&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;SS06&quot;&gt;Сравнение разных вариантов сэмлирования видео, сэмлринга кадров и то как сэмлятся кадры&lt;/p&gt;
  &lt;p id=&quot;5Ivq&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;SQJI&quot;&gt;4) Сompression patch embedings&lt;/p&gt;
  &lt;figure id=&quot;0lrb&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/bd/ee/bdee16a0-b0c7-448e-8a71-0fee7a8164d6.png&quot; width=&quot;616&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Wk1l&quot;&gt;Ну типа можем патчить не просто кадры, а кадры по времени, но по итогу оно хуже&lt;/p&gt;
  &lt;figure id=&quot;THwE&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/2d/58/2d58001b-9377-41ac-9f7f-0067d3f09749.png&quot; width=&quot;484&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;CK2B&quot;&gt;5) По флопсам кстати довольно выгодным выходит именно 4 вариант &lt;/p&gt;
  &lt;figure id=&quot;WwkQ&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/0e/b7/0eb74505-9870-4063-b53d-028bfab35b3d.png&quot; width=&quot;740&quot; /&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;56Cj&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/f5/cc/f5cce0a9-b699-4f7d-bfdd-26289e0a83fe.png&quot; width=&quot;446&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;FLOc&quot;&gt;Хотя по метрикам и похуже, но любопытно.&lt;/p&gt;
  &lt;p id=&quot;SYjT&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;KKes&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;rJ1t&quot;&gt;Open sora&lt;/h2&gt;
  &lt;p id=&quot;SCUQ&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;7LLj&quot;&gt;По сути это подход Latte, только на большем обьеме данных и больше экспов по video vae  и с более высоким разрешением и числом фреймов. А еще зачем то используют DeepFloyd/t5-v1_1-xxl который ээээ, пиздец огромный и ну не секс.&lt;/p&gt;
  &lt;p id=&quot;e48A&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;h1oO&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;JXE7&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/93/57/935700bc-7dc1-4b3d-911d-02c11645e543.png&quot; width=&quot;942&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;xp0t&quot;&gt;&lt;strong&gt;Материалы&lt;/strong&gt;&lt;/p&gt;
  &lt;p id=&quot;gUI2&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/2401.03048v1.pdf&quot; target=&quot;_blank&quot;&gt;https://arxiv.org/pdf/2401.03048v1.pdf&lt;/a&gt; -latte&lt;/p&gt;
  &lt;p id=&quot;mtCt&quot;&gt;https://github.com/google-research/magvit - magvit&lt;/p&gt;

</content></entry><entry><id>alexwortega:ndr117M49A_</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/ndr117M49A_?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>DBRX - MoE в fp8 за 130</title><published>2024-03-29T17:08:02.097Z</published><updated>2024-03-29T17:10:14.614Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img4.teletype.in/files/ba/ba/babafeb8-33c6-42ab-ac44-75f14ded3a1b.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img4.teletype.in/files/32/c9/32c991f8-cefb-4f43-ad1d-b7f2337ac826.png&quot;&gt;Среди LLMщиков есть распространенный сетап обучения - если хотите нормально претренить модель: учите в bf16+adamw_образны(laion, adafactor, alan, вариаций много 2momentum остается) и с zero3/fullshard или аналогом. Тогда не ебанет и скорее всего дефолт параметры +- поедут нормально, а не как обычно</summary><content type="html">
  &lt;p id=&quot;IQKd&quot;&gt;Среди LLMщиков есть распространенный сетап обучения - если хотите нормально претренить модель: учите в bf16+adamw_образны(laion, adafactor, alan, вариаций много 2momentum остается) и с zero3/fullshard или аналогом. Тогда не ебанет и скорее всего дефолт параметры +- поедут нормально, а не как обычно&lt;/p&gt;
  &lt;p id=&quot;4iYC&quot;&gt;Все остальное - удел резечеров которые то лорой претренят, то в 2bit(не совсем) то еще как нибудь изьебнуться.&lt;/p&gt;
  &lt;p id=&quot;e6v7&quot;&gt;&lt;/p&gt;
  &lt;h3 id=&quot;y2HY&quot;&gt;Маленькое включение про устройства видеокарт &lt;/h3&gt;
  &lt;p id=&quot;Tubt&quot;&gt;GPU - строиться на огромном числе маленьких ядер(это позволяет быстро гонять паралелньые операции), для еще бОльшего быстродействия такие ядра в том числе выделяют под разные типы данных: fp32, 16 и прочее, остальные типы будут работать, но не так быстро &lt;br /&gt;но начиная с поколения hopper добавилась возможность гонять более мелкие типы данных- fp8. К слову в Broadwell можно до int4 гонять нативно в tensor cores))&lt;/p&gt;
  &lt;figure id=&quot;inwm&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/32/c9/32c991f8-cefb-4f43-ad1d-b7f2337ac826.png&quot; width=&quot;636&quot; /&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;4OW3&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/5f/5b/5f5b5d37-34e7-4d37-b3bf-2c2269167541.png&quot; width=&quot;617&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;vJdb&quot;&gt;К слову раньше nvidia делали ставки на sparce layers, но популярности они не сыскали  потому что хуево работали))&lt;/p&gt;
  &lt;p id=&quot;jiTS&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;o9pA&quot;&gt;Короче bf16, fp8 ускорения у h100, не теряем нить, sparce типы особо никто не использовал и долгое время после выхода h100 fp8 использовали только для &lt;a href=&quot;https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html&quot; target=&quot;_blank&quot;&gt;inference engine&lt;/a&gt; от nvidia&lt;/p&gt;
  &lt;p id=&quot;p4wu&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;XSyG&quot;&gt;Контекст закончился&lt;/h2&gt;
  &lt;p id=&quot;qaVf&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;ooT4&quot;&gt;MOE для самых маленьких&lt;/h2&gt;
  &lt;p id=&quot;OvQv&quot;&gt;Короче вот у вас есть жирный трансформер, самая его жирная часть - FFN, она очень долго выполняется, поэтому есть очевидная идея - давайте мы разрежем FFN на экспертов(много небольших ffn), соответственно это позволит нам быстрее все это крутитить(мы выбираем на инференсе самый вероятный FFN через активацию)&lt;/p&gt;
  &lt;p id=&quot;R08k&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;RNQA&quot;&gt;DBRX&lt;/h2&gt;
  &lt;p id=&quot;Ikir&quot;&gt;Э, mixtral like 132B трансформер, эксперты по 36B, 12T каких то токенов в претрене, gpt4 токенайзер&lt;/p&gt;
  &lt;figure id=&quot;rI29&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/19/08/1908ca18-d9ca-4f33-9ebb-037a8208e037.png&quot; width=&quot;1466&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;b228&quot;&gt;лучше чем mixtral, вероятно хуже топовых файнтюнов на данный момент, но перспективы есть.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;/p&gt;
  &lt;p id=&quot;xOAe&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;nrCJ&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;zK6i&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;N2ML&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/1b/54/1b544b6b-99c5-4421-86f1-ef537187390a.png&quot; width=&quot;634&quot; /&gt;
  &lt;/figure&gt;

</content></entry><entry><id>alexwortega:c07ry5sAGbP</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/c07ry5sAGbP?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>Large World Model (LWM)</title><published>2024-02-19T06:48:33.076Z</published><updated>2024-02-19T06:48:33.076Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img4.teletype.in/files/b4/33/b43324cc-3413-4c2e-8219-0484da519c9e.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img3.teletype.in/files/ae/ea/aeeadc44-dc21-4417-9b2e-3035135e8550.png&quot;&gt;ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models</summary><content type="html">
  &lt;p id=&quot;EhVc&quot;&gt;ставь лайк если вчера был экспертом по LLM, а сегодня уже эксперт по world models&lt;/p&gt;
  &lt;p id=&quot;6m2V&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;ROJn&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ae/ea/aeeadc44-dc21-4417-9b2e-3035135e8550.png&quot; width=&quot;1031&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;PL9g&quot;&gt;Whait, это опенсурсная модель которая жрет 1M контекста? Часовые видео? охуеть....&lt;/p&gt;
  &lt;p id=&quot;3nGh&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;v9Qz&quot;&gt;Что это?&lt;/h2&gt;
  &lt;figure id=&quot;pkNd&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ab/d8/abd89a7a-6070-4063-b9a7-e445a31ce7fc.png&quot; width=&quot;1014&quot; /&gt;
  &lt;/figure&gt;
  &lt;ol id=&quot;t3pB&quot;&gt;
    &lt;li id=&quot;oLZx&quot;&gt;Берем лламу 7в&lt;/li&gt;
    &lt;li id=&quot;znLV&quot;&gt;Собираем датасет книжек&lt;/li&gt;
    &lt;li id=&quot;2NmK&quot;&gt;Последовательно увеличиваем размер последовательности чтобы модель не развалилась!&lt;/li&gt;
  &lt;/ol&gt;
  &lt;p id=&quot;SWMv&quot;&gt;Любопытное решение - модель училась не с адапетером как llava/blip а с VQGAN токенами(те &amp;quot;vae токенизировал изображения&amp;quot;), одна картинка - 256 токенов.&lt;/p&gt;
  &lt;p id=&quot;LbJ3&quot;&gt;Контекст скейлили с помощью RoPE(&lt;a href=&quot;https://arxiv.org/abs/2306.15595&quot; target=&quot;_blank&quot;&gt;https://arxiv.org/abs/2306.15595&lt;/a&gt; обзор будет когда нибудь)&lt;/p&gt;
  &lt;figure id=&quot;HCV9&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/e4/23/e423d06c-8259-4413-9f32-6bd12ad6edc2.png&quot; width=&quot;909&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Chm3&quot;&gt;Качество для 7B модели конечно нихуя себе, очень неплохо.&lt;/p&gt;
  &lt;p id=&quot;eM5t&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;Pquh&quot;&gt;EMERGENT ABILITYS&lt;/h2&gt;
  &lt;p id=&quot;Bc0F&quot;&gt;Нет, ну вы представляете, если учить модель на картиночных токенах, она сможет их генерировать? я не представлял. &lt;/p&gt;
  &lt;figure id=&quot;NLCG&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c9/da/c9da814c-cd10-4772-854c-ae001c1c70ac.png&quot; width=&quot;750&quot; /&gt;
    &lt;figcaption&gt;С&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Kz6R&quot;&gt;Собственно даже видео может генерировать, и вероятно минутные тоже.&lt;/p&gt;

</content></entry><entry><id>alexwortega:r6zha1uPaAS</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/r6zha1uPaAS?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>Лучшие вайфу - со смешанной генетикой. Кто такой models merging? </title><published>2024-02-03T20:29:00.346Z</published><updated>2024-02-03T20:29:00.346Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img2.teletype.in/files/57/b9/57b929b3-f5b5-4e7c-8739-bb3dfc0b71ec.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img1.teletype.in/files/8d/58/8d58f5f4-7dce-436c-bcee-d9b4a660c053.png&quot;&gt;Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)</summary><content type="html">
  &lt;p id=&quot;7RUv&quot;&gt;Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)&lt;/p&gt;
  &lt;p id=&quot;OKVM&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;wkQB&quot;&gt;Тема мержинга моделей это ебучий андегрунд, но он ОЧЕНЬ хорошо работает;&lt;/p&gt;
  &lt;p id=&quot;NrzX&quot;&gt;Почему? Ну например вам надо добавить новые знания в модель, и в классик вы будете учить модель на &amp;lt;что то&amp;gt; Пиздец ли вам? Скорее всего вы оверфитнетесь и пойдете нахуй. &lt;/p&gt;
  &lt;p id=&quot;fvYm&quot;&gt;А мержинг не проебет знаний и вы скорее всего не оверфитнетесь. Те следите за руками: учить модель градиентами часто менее профитно чем обучить одну модель на задачу X(генерировать персонажа) а другую на Y(генерировать улыбку). А затем модели мержаться и получается ээээ база?&lt;/p&gt;
  &lt;figure id=&quot;S817&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/8d/58/8d58f5f4-7dce-436c-bcee-d9b4a660c053.png&quot; width=&quot;692&quot; /&gt;
    &lt;figcaption&gt;https://civitai.com/images/4213139 ладно конкретно ТУТ  лоры, но они мержаться по тому же принципу&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;jkDR&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;GLQC&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;jZa5&quot;&gt;Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time &lt;/h2&gt;
  &lt;p id=&quot;Jc8I&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;OhAD&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;ZKaE&quot;&gt; &lt;/p&gt;
  &lt;figure id=&quot;82kk&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/56/8d/568d1df3-fe35-45c6-88de-51fef0a262c5.png&quot; width=&quot;489&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Qp01&quot;&gt;В чем идея - для того чтобы хорошо затюнить CLIP like можно обучить разные CLIP на один и тот же сет, но варьируя: lr, seed, augmentation. &lt;/p&gt;
  &lt;p id=&quot;rVVu&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;gKFW&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;ugB3&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/ff/01/ff015631-19fb-4a84-9ed5-e0768091f341.png&quot; width=&quot;374&quot; /&gt;
    &lt;figcaption&gt;точно не обезьяны и точно понимаем как работает DL а не тыкаем модели GPUшкой пока не полетит&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;uv4s&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;BAX4&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ee/09/ee096436-5043-4e11-99a2-25fa6c30a83c.png&quot; width=&quot;368&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;zp8J&quot;&gt;Ну и после такого мержинга модели начинают лучше работать(значимо)&lt;/p&gt;
  &lt;figure id=&quot;DWWj&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/e1/65/e165ecdc-d332-4a38-b055-9c7b8fe6b79c.png&quot; width=&quot;1001&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;kuzV&quot;&gt;Для ллм так примерно и делают, работает хорошо.&lt;/p&gt;
  &lt;p id=&quot;3NIy&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;7fim&quot;&gt;Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch&lt;/h2&gt;
  &lt;figure id=&quot;73Fz&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ef/b6/efb6a892-4934-4879-967c-fd11f0af51c9.png&quot; width=&quot;747&quot; /&gt;
    &lt;figcaption&gt;лучшая аниме вайфа для программирования??????&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;35cM&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/f8/67/f8671474-1fde-4d68-923f-6408fdff7c2a.png&quot; width=&quot;1076&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;JOt9&quot;&gt;В чем идея: давайте возьмем WizardLM и WizardMath и будем мержить  по следуюещей схеме:&lt;/p&gt;
  &lt;p id=&quot;fvxu&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;3EAE&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/fd/bb/fdbb9f2f-a378-49f5-bbe9-2d3ab5cb2041.png&quot; width=&quot;1097&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;t4GA&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;KwTG&quot;&gt;Те смотрят какие параметры отилчаются в двух SFT моделях, с помощью бернули выкидывая те параметры которые одинаковые или очень близкие. &lt;/p&gt;
  &lt;p id=&quot;xcY9&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;jggN&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;WBNw&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;HTXd&quot;&gt;По результатам все неплохо,  модели реально довольно халявно можно смержить, но мержить одновременно CODE+MATH - плохая идея&lt;/p&gt;
  &lt;p id=&quot;mBTj&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;GPVY&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/31/af/31af2138-8894-4ea7-964f-248395b20fd6.png&quot; width=&quot;1060&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;ZoF4&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;GD04&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;0Jr3&quot;&gt;К слову все это имлементнуто тут: &lt;a href=&quot;https://github.com/arcee-ai/mergekit?tab=readme-ov-file#merge-methods&quot; target=&quot;_blank&quot;&gt;https://github.com/arcee-ai/mergekit?tab=readme-ov-file#merge-methods&lt;/a&gt;&lt;/p&gt;

</content></entry><entry><id>alexwortega:RN2O2QtH1nQ</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/RN2O2QtH1nQ?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>альфа геометри - решаем егэ по цене репетитора</title><published>2024-01-19T21:49:02.351Z</published><updated>2024-01-20T07:02:02.718Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img2.teletype.in/files/9a/56/9a56bc60-c217-4b55-9c86-d703b6cbb958.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img1.teletype.in/files/84/e9/84e9084a-616d-4106-aa07-35ff3ab405de.png&quot;&gt;2006 год теперь можно легально ебать, а значит ресечеры из дипмайнда расчехлили свои кластера и пошли ебать метод. 2006 года. Твердо и четко.</summary><content type="html">
  &lt;p id=&quot;tEXZ&quot;&gt;В чем идея: вообще то есть механические(ака без идейные) способы считать геому. Можно перестроить все в векторный space и вытащить все координаты, а дальше приходит вычмат и считает все.&lt;/p&gt;
  &lt;p id=&quot;NUqs&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;eFOT&quot;&gt; &lt;/p&gt;
  &lt;p id=&quot;pnmt&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;9MgI&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/84/e9/84e9084a-616d-4106-aa07-35ff3ab405de.png&quot; width=&quot;536&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;X0e3&quot;&gt;Авторы с эти особо не спорят, ну решает и решает, численные калькуляторы, так а что это блять такое????&lt;/p&gt;
  &lt;p id=&quot;stCT&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;ddN0&quot;&gt;Как решить ((((любую))))) геометрию числено?&lt;/h2&gt;
  &lt;p id=&quot;7ZQZ&quot;&gt;Любой учащийся в МАТшколах-тех вузах знает что такое wolfram alpha - это такой тул для решения любого примерно любого матана. Минусы: он очень часто забивает пытаться решать что то аналитически и хуярит какие то фантастические ответы полученные численно. CPU goes brrr, математики не нужны(NO)????&lt;/p&gt;
  &lt;p id=&quot;e8r3&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;KvTH&quot;&gt;Возьмем для примера спинно мозговое ЕГЭ проверяющее жив ли решающий.&lt;br /&gt;&lt;/p&gt;
  &lt;figure id=&quot;c5CS&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/7e/da/7eda59e4-eca0-4b68-8e41-a0be41402442.png&quot; width=&quot;837&quot; /&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;0jpv&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/15/f6/15f685e3-ae13-48c8-ab73-7d6ff4905549.png&quot; width=&quot;458&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;PBKj&quot;&gt;Вообще за последние пару лет вольфрам сильно обновился, там теперь и NLP ввод есть и решения пишутся нормальные(почти всегда)&lt;/p&gt;
  &lt;p id=&quot;HZzh&quot;&gt;&lt;br /&gt;Как же решается геома? довольно просто&lt;/p&gt;
  &lt;h3 id=&quot;a9qc&quot;&gt;AUTOMATED DEDUCTION IN REAL GEOMETRY(2011)&lt;/h3&gt;
  &lt;p id=&quot;2ukp&quot;&gt;прикиньте ебала алармистов в 2011 если бы они ну не знаю, не были бы хайпожорами?&lt;/p&gt;
  &lt;p id=&quot;bPxK&quot;&gt;Идея такая: любая геометрия задается координатами&lt;/p&gt;
  &lt;figure id=&quot;Lyvn&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/52/89/52895b4e-5f40-46ab-9812-5dc6bf034811.png&quot; width=&quot;406&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;7qbs&quot;&gt;А если мы можем задать координаты то мы можем систему уравнений которая задает эту задачу&lt;/p&gt;
  &lt;figure id=&quot;57X0&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/78/e5/78e5526b-b592-4a83-a2f9-94dd2bbd2593.png&quot; width=&quot;476&quot; /&gt;
    &lt;figcaption&gt;Неприятно? Дальше будет хуже.&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;EErP&quot;&gt;Собственно дальше идет метод ВУ для решения систем уравнений, он предназначен для ВычМаша, поэтому ну он не оч интуитивный для человека)&lt;/p&gt;
  &lt;p id=&quot;dS7i&quot;&gt;Он использует псевдоделение, работает это примерно так:&lt;/p&gt;
  &lt;figure id=&quot;EZI4&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/dd/18/dd188575-8ec5-44ca-86f7-c7de25ffd522.png&quot; width=&quot;468&quot; /&gt;
    &lt;figcaption&gt;доказательство остается в качестве практики читателю&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;rgRw&quot;&gt;Этот метод позволит нам упростить систему до приведения ее к треугольному виду который мы можем решить. И да, это может работать ОЧЕНЬ быстро особенно на GPU. условно можно делать 300i t/s и это даже не вставая со стула первая попавшаяся репа.&lt;/p&gt;
  &lt;p id=&quot;AXfH&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;kUOG&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;O8Mi&quot;&gt;&lt;a href=&quot;https://scholarworks.umt.edu/cgi/viewcontent.cgi?article=1034&amp;context=tme&quot; target=&quot;_blank&quot;&gt;https://scholarworks.umt.edu/cgi/viewcontent.cgi?article=1034&amp;amp;context=tme&lt;/a&gt;&lt;/p&gt;
  &lt;p id=&quot;DmL8&quot;&gt;почитать тут&lt;/p&gt;
  &lt;p id=&quot;2n1k&quot;&gt;Спойлер: такая схема решает 10/30 задач IMO(в 2006 году)&lt;/p&gt;
  &lt;figure id=&quot;Hjwf&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/6f/2a/6f2a042c-c5b1-4d53-8de8-91303952d60e.png&quot; width=&quot;643&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;CzM2&quot;&gt;правда тут есть два нюанса: авторы альфа геометри забивают ссылаться на конкретную кодовую базу, а еще буквально пишут&lt;/p&gt;
  &lt;blockquote id=&quot;WZ55&quot;&gt;because these methods often have large time and memory complexity, especially when processing IMO-sized problems, we report their result by assigning success to any problem that can be decided within 48 h using one of their existing implementations17&lt;/blockquote&gt;
  &lt;p id=&quot;aHAF&quot;&gt;Я покопался на гите и нашел только &lt;a href=&quot;https://github.com/jyfliu/Goq&quot; target=&quot;_blank&quot;&gt;https://github.com/jyfliu/Goq&lt;/a&gt; &lt;/p&gt;
  &lt;blockquote id=&quot;Lu7B&quot;&gt;Geometry proofs are very mechanical in nature — they don&amp;#x27;t require much creativity. The vast majority of geometry problems, even at the Olympiad level, can be solved in the following manner: Construct these templates, apply these 7 theorems in this order, these points lie in the following configuration of which we know this property about, etc. Both humans and computers are not restricted in the techniques they know, but rather by the number of templates and theorems they have memorized. And computers are a lot better at memorization than humans.&lt;/blockquote&gt;
  &lt;p id=&quot;fmwx&quot;&gt;Согласен с автором полностью. Возможно перепишу(или кто то из студентов) его кодовую базу на jax  и обсудим почему LM не очень то и нужны в вычматах.&lt;/p&gt;
  &lt;p id=&quot;39S1&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;9dtK&quot;&gt;Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning&lt;/h2&gt;
  &lt;p id=&quot;Huhz&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;6T5B&quot;&gt;wait это что, alpha geometry?? из 2021??? и alpha geometry ее не упоминает???&lt;/p&gt;
  &lt;p id=&quot;cd30&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;Aa0a&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;CqDk&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/05/f5/05f5dc19-ef53-478d-8b66-8de09d1d8620.png&quot; width=&quot;752&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;dAnS&quot;&gt;В чем смысл - у нас есть парсер решения в правильный формат(у DeepMind его нет, им похуй они так чувствуют), а затем маленький трансформер придумывает теорему куда подставляются чиселки, а затем машина считает их.&lt;/p&gt;
  &lt;p id=&quot;s21c&quot;&gt;Офк Human baseline тут не бьется(и не может, модель на 12м параметров)&lt;/p&gt;
  &lt;figure id=&quot;cxQW&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c1/c4/c1c4fa5d-c4fc-4ae3-837a-4fa11b0e8fa9.png&quot; width=&quot;867&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;M8ZR&quot;&gt; &lt;/p&gt;
  &lt;h2 id=&quot;aKJZ&quot;&gt;А чо такого сделали deepmind?&lt;/h2&gt;
  &lt;p id=&quot;eXTc&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;sLPl&quot;&gt;Э, навалили компьюта и добавили построитель доп построений(сорри за каламбур) на LM которую обучили на синте.&lt;/p&gt;
  &lt;figure id=&quot;DLr3&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ab/a3/aba36ac7-d210-4c6c-b3be-762c5fe372ac.png&quot; width=&quot;606&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;eFcR&quot;&gt;А что такое Symbolic engine?  По сути такой же метод ВУ только сложнее, теперь они используют не просто псевдоделение, но и еще различные геометрические/алгебраические законы и переставляя их продвигается по решению преобразуя их по примерно таким правилам:&lt;/p&gt;
  &lt;figure id=&quot;fV83&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/66/92/669272b1-0423-4aa1-9f8a-c409902809e7.png&quot; width=&quot;737&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;PCZB&quot;&gt;К слову с помощью него же и генерируют огромный датасет решенный авторсолвером для обучения LM(100m) и кормят в LM, а затем дотюнивают на 9m cэплов на доп построяниях))) &lt;/p&gt;
  &lt;p id=&quot;qIFi&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;U5aN&quot;&gt;По сути LM служит как выбор когда строить доп построение, а когда нет для Symbolic engine.&lt;/p&gt;
  &lt;figure id=&quot;ODLh&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/ee/7f/ee7f7534-1523-46ed-b08e-8f9c67991915.png&quot; width=&quot;654&quot; /&gt;
    &lt;figcaption&gt;ну понятно да&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;62Oz&quot;&gt;Сама по себе альфа геометри и безе LM показывает неплохие результаты на основе эвристик и symbol engine(cм Without Pretraining)&lt;/p&gt;
  &lt;p id=&quot;w8ay&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;lSGK&quot;&gt;У авторов очень специфичный сетап для рана, почему то 4v100(почему не 8h100) или их TPU я не знаю, а авторам слегка похуй на обьяснения.&lt;/p&gt;
  &lt;figure id=&quot;KQ6D&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/03/cc/03ccc799-4c01-4bb6-af12-0a344102643a.png&quot; width=&quot;649&quot; /&gt;
  &lt;/figure&gt;
  &lt;h3 id=&quot;pmS1&quot;&gt;Вывод? &lt;/h3&gt;
  &lt;p id=&quot;nQTm&quot;&gt;Если очень хочется можно и LM заставить решать IMO(нет, это полный бред, symbolic engines тащат)&lt;/p&gt;
  &lt;figure id=&quot;GqJv&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/18/d9/18d9811d-d600-4128-a06b-aab6804818ff.png&quot; width=&quot;432&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;xyJV&quot;&gt;Такая вот история&lt;/p&gt;

</content></entry><entry><id>alexwortega:BmwV-nq0DdO</id><link rel="alternate" type="text/html" href="https://teletype.in/@alexwortega/BmwV-nq0DdO?utm_source=teletype&amp;utm_medium=feed_atom&amp;utm_campaign=alexwortega"></link><title>я начинаю хайповать по МоЕ и вам тоже стоит, и ВОТ ПОЧЕМУ</title><published>2023-12-17T13:00:44.937Z</published><updated>2023-12-17T13:00:44.937Z</updated><media:thumbnail xmlns:media="http://search.yahoo.com/mrss/" url="https://img4.teletype.in/files/7b/f6/7bf61e74-e771-4864-8712-de8820a01940.png"></media:thumbnail><summary type="html">&lt;img src=&quot;https://img1.teletype.in/files/c0/b4/c0b45b9f-682b-44f8-a98b-16b0107c5699.png&quot;&gt;те кто давно на меня подписаны знают что я довольно скептически отношусь к СВЕРХ массивным моделям - да круто, мы обязательно туда придем, но это игрушки для безмерно богатых ребят, на такого размера графах сложно строить продукты - как правило они не влезают в одну ноду(для TPU это не так критично - там сеть заметно быстрее), в итоге на середину 2023 года мы имели примерно такую картинку:</summary><content type="html">
  &lt;p id=&quot;dFvw&quot;&gt;те кто давно на меня подписаны знают что я довольно скептически отношусь к СВЕРХ массивным моделям - да круто, мы обязательно туда придем, но это игрушки для безмерно богатых ребят, на такого размера графах сложно строить продукты - как правило они не влезают в одну ноду(для TPU это не так критично - там сеть заметно быстрее), в итоге на середину 2023 года мы имели примерно такую картинку:&lt;/p&gt;
  &lt;figure id=&quot;cudu&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c0/b4/c0b45b9f-682b-44f8-a98b-16b0107c5699.png&quot; width=&quot;1005&quot; /&gt;
    &lt;figcaption&gt;*180b влезает в 8а100 к слову, но на тюн нужно несколько нод по хорошему&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;8BJo&quot;&gt;ну те вы конечно можете пихнуть 180b модель в прод, но ипотека сама себя не выплатит, а вот этот графичек не наебать: &lt;/p&gt;
  &lt;figure id=&quot;46Uy&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/69/10/6910c697-466f-429c-a2b0-731a9d36f68f.png&quot; width=&quot;868&quot; /&gt;
    &lt;figcaption&gt;отсюда https://openai.com/research/instruction-following&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Gemu&quot;&gt;Поэтому до выхода хороших откртых моделей увидеть в проде что то большее чем 20b GPT NEO было в диковинку, когда вышли LLAMA13b(по метрикам +- как gpt3 175b) то стало понятно что Scaling сurve не до конца точная - на бОльшем числе бОлее чистых токенов модели становяться умнее, а потом вышла MIstral 7b - которая порвала(&lt;s&gt;жопы&lt;/s&gt;) и показала что в 7b размере можно показывать очень мощные результаты, при этом у mistral супер дешевый инференс - 500tokens/s на 1a100, а значит прод можно скейлить во много раз не закладывая почку БЕЗОСОСУ на gpuшки.&lt;/p&gt;
  &lt;p id=&quot;ZaSN&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;4EK8&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;1yHt&quot;&gt;&lt;strong&gt;МоЕ - mixture of experts, та самая архитектура из слива про OpenAI, 2т параметров, короче вы знаете.&lt;/strong&gt;&lt;/p&gt;
  &lt;p id=&quot;47hi&quot;&gt;План примерно такой: я расскажу про switch transfomer, OpenMoE, Megablocks(mixtral)&lt;/p&gt;
  &lt;figure id=&quot;xmtt&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/8b/4b/8b4bbf61-ba90-43ba-9110-6bc48d071060.png&quot; width=&quot;867&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;ZNcz&quot;&gt;Cамое просто обьяснение - это бабки у подьезда, учатся они все долго, но за инференс отвечают K самые увереные(выбираются либо Softmax либо сonv либо SelfAttn, в зависимости от архитектур)&lt;/p&gt;
  &lt;p id=&quot;rLMo&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;t5jd&quot;&gt;&lt;strong&gt;Switch Transfomer&lt;/strong&gt;&lt;/p&gt;
  &lt;p id=&quot;1Oz3&quot;&gt;это не первая MoE архитектура, MoE пытались &lt;a href=&quot;https://arxiv.org/abs/1605.01652&quot; target=&quot;_blank&quot;&gt;делать еще на lstm, &lt;/a&gt;но было плохо и не кому не нужно, а гугл сделали ...... нормально и по прежнему никому не нужно, ну серьезно&lt;/p&gt;
  &lt;figure id=&quot;YXhW&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/e4/2c/e42c3a91-ec81-41a1-853b-aaab9fb7f746.png&quot; width=&quot;650&quot; /&gt;
    &lt;figcaption&gt;ладно, там есть модели с 1000+ скачиваний, но суть вы поняли, прием был холодный&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;nP09&quot;&gt; &lt;/p&gt;
  &lt;p id=&quot;ivti&quot;&gt;Короче, модели и сам подход вышли крутые и вот почему:&lt;/p&gt;
  &lt;ul id=&quot;mrQk&quot;&gt;
    &lt;li id=&quot;02UI&quot;&gt;в 7раз дешевле претрен чем у DENSE t5 версии используя те же флопсы&lt;/li&gt;
    &lt;li id=&quot;woFq&quot;&gt;можно задистилировать в 1% от оригинального размера sparce модели, при этом сохранив 30% ее качества(waht ever it means, кода я не нашел)&lt;/li&gt;
  &lt;/ul&gt;
  &lt;blockquote id=&quot;QeUU&quot;&gt;Our work here focuses on TPU architectures, but these class of models may be similarly trained on GPU clusters. In our distributed training setup, our sparsely activated layers split unique weights on different devices. Therefore, the weights of the model increase with the number of devices, all while maintaining a manageable memory and computational footprint on each device.&lt;/blockquote&gt;
  &lt;ul id=&quot;GJuc&quot;&gt;
    &lt;li id=&quot;MtKR&quot;&gt; на самом деле большая часть бенефитов работает именно на TPU с быстрыми шинами, те на GPU скорее всего все будет сильно хуже&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;d41e&quot;&gt; &lt;/p&gt;
  &lt;figure id=&quot;ZadR&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/a6/3c/a63c9488-010e-4bf3-974b-d981effc8c37.png&quot; width=&quot;861&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;IFQT&quot;&gt;Про архитектуру: по сути это все тоже самое т5, но вместо обычных MLP поставили MoE  который выбирается через ROuter, на каждого эксперта приходиться по &lt;/p&gt;
  &lt;figure id=&quot;qTsN&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/07/49/07491a58-ba8a-48c8-aab6-9d53d5ffd27b.png&quot; width=&quot;892&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;z4q4&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;OXFI&quot;&gt;По метрикам модели вышли довольно посредственными, они не были значительно лучше своих DENSE собратьев, при этом были очень ОЧЕНЬ дорогими для инфернса. В общем то комьюнити забили их допиливать.&lt;/p&gt;
  &lt;figure id=&quot;bgQV&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/e8/27/e8275704-a523-44ae-b428-936e823f6451.png&quot; width=&quot;864&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;7tOv&quot;&gt;собственно да, модель конечно учиться быстрее, но 14b с качеством 700m было перебором по меркам 2021-2022 года, все отложили модель на дальнию полку и забыли о ней.&lt;/p&gt;
  &lt;p id=&quot;pUDu&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;JDfr&quot;&gt;&lt;strong&gt;OpenMoE(ST-MOE)&lt;/strong&gt;&lt;/h2&gt;
  &lt;p id=&quot;Iz4g&quot;&gt;Прибежали челы из университета сингапура(неожиданно),  взяли &lt;a href=&quot;https://arxiv.org/pdf/2202.08906.pdf&quot; target=&quot;_blank&quot;&gt;малоизвестную&lt;/a&gt; работу ребят из гугла, прикрутили Z loss отвечающий за выбор эксперта, прикрутиили bf16 и несколько оптимизаций GELU которые мне лениво разбирать, для нас важно другое.&lt;/p&gt;
  &lt;figure id=&quot;pPOX&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/80/27/80270798-7d7f-4a9d-9a88-c790db16aeb1.png&quot; width=&quot;704&quot; /&gt;
    &lt;figcaption&gt;ну те выигрышь был на 10тки процентов, что уже как бы имело смысл))&lt;/figcaption&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;SIE7&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/e0/c1/e0c151b0-d7b4-4d92-b2a9-8528e09d1b23.png&quot; width=&quot;720&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;FWis&quot;&gt;я конечно все понимаю, но эти цифры меня очень сильно пугают, 1.5t параметров&lt;/p&gt;
  &lt;p id=&quot;NXI7&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;W8sa&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/53/52/53522bad-3c3a-45b4-a1db-7a7d9fa89f18.png&quot; width=&quot;1440&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;l3wg&quot;&gt;Собственно авторы обучили на 750B токенах Decoder only модель, которая была при этом ощутимо лучше на бенчах, правда авторы забили сравниваться с LLAMA(иронично), а учили на TPU cloud(см тейк выше про эффективность МоЕ на tpu)&lt;/p&gt;
  &lt;p id=&quot;PZXS&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;VybS&quot;&gt;&lt;/p&gt;
  &lt;h2 id=&quot;Ua1A&quot;&gt;FLAN MOE(2023)&lt;/h2&gt;
  &lt;p id=&quot;BMIF&quot;&gt;Еще существует &lt;a href=&quot;https://arxiv.org/pdf/2305.14705.pdf&quot; target=&quot;_blank&quot;&gt;FLAN-MoE&lt;/a&gt;, он даже получается эффективнее чем просто FLAN, архитектурно совпдает с ST Moe выше&lt;/p&gt;
  &lt;figure id=&quot;Ticr&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img3.teletype.in/files/a2/c6/a2c6d22c-8cbd-4fd9-a3c6-7df06387c841.png&quot; width=&quot;556&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;SCPW&quot;&gt;И получается слегка экономичнее Dense версии&lt;/p&gt;
  &lt;figure id=&quot;7MvH&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/48/49/4849e876-6314-4255-bc16-41c7c091f4d6.png&quot; width=&quot;807&quot; /&gt;
  &lt;/figure&gt;
  &lt;h2 id=&quot;UYHB&quot;&gt;MEGABLOCKS: EFFICIENT SPARSE TRAINING WITH MIXTURE-OF-EXPERTS&lt;/h2&gt;
  &lt;p id=&quot;Tr9q&quot;&gt;если вы внимательно читали буковки выше, могли заметить - ключевая эффективность МоЕ провляется на TPU(спецефичный сетап) и на претрене, на инференсе есть разница, но она не столь велика, а с ростом размера модели - уменьшается.&lt;/p&gt;
  &lt;p id=&quot;Pbo1&quot;&gt;&lt;/p&gt;
  &lt;ul id=&quot;qBSR&quot;&gt;
    &lt;li id=&quot;cb2L&quot;&gt;модель орентированная на GPU, сделаны kernels с которыми MoE перестает овощить&lt;/li&gt;
    &lt;li id=&quot;J9Ov&quot;&gt;ОЧЕНЬ сильная заточенность на удешевление инфернса модели(трен постольку поскольку)&lt;br /&gt;&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;kPhk&quot;&gt;&lt;/p&gt;
  &lt;figure id=&quot;N9jn&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img1.teletype.in/files/c5/63/c563c405-098f-46c9-9a4b-aa6e9daa6096.png&quot; width=&quot;1288&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;G1Ed&quot;&gt;ну начнем с того что теперь у нас эксперты выбираются одновременно, по аналогии с головами трансформера&lt;/p&gt;
  &lt;p id=&quot;XSrr&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;USy9&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;USDR&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;5R5y&quot;&gt;Переформулировали как mm прокидывание токенов через экспертов, что опять же сильно упрощает жизнь GPUшкам, а еще nvidia kernels быстрее работают со sparse сompute)))&lt;/p&gt;
  &lt;figure id=&quot;mJeW&quot; class=&quot;m_retina&quot;&gt;
    &lt;img src=&quot;https://img4.teletype.in/files/bb/05/bb05d7de-129b-4484-8492-ee5bc82862ac.png&quot; width=&quot;907&quot; /&gt;
  &lt;/figure&gt;
  &lt;figure id=&quot;xzOy&quot; class=&quot;m_original&quot;&gt;
    &lt;img src=&quot;https://img2.teletype.in/files/1b/56/1b561dab-8c24-4e6a-b2e9-22b3cae68199.png&quot; width=&quot;762&quot; /&gt;
  &lt;/figure&gt;
  &lt;p id=&quot;Kryv&quot;&gt;на удивление MoE в 1.38x раз лучше чем ванильный трансформер, авторы обучили только игрушечные модели как proof of concept архитектуры, но по каким то причинам Mistral Ai выбрали именно эту версию, давайте накинем причины почему&lt;/p&gt;
  &lt;ul id=&quot;DdEi&quot;&gt;
    &lt;li id=&quot;rseO&quot;&gt;инференс и трен требует больше памяти чем dense версия - да, но при этом модели используют &lt;strong&gt;меньше&lt;/strong&gt; флопс на forward - за счет того что используется &lt;strong&gt;только 2 эксперта из 8&lt;/strong&gt;&lt;/li&gt;
    &lt;li id=&quot;AGjC&quot;&gt;возможно модели учатся быстрее - я не учил, я хз))))) но авторы обещают что все хорошо будет&lt;/li&gt;
    &lt;li id=&quot;Ns9D&quot;&gt;ПРИ ЭТОМ инференс MOE крайне выгоден на устройствах с Unified memory - телефоны, M серия чипов, много всякого от AMD. Почему? 40b модель не влезает целиком не в одну из текущих распространенных карт, &lt;strong&gt;но в случае с MoE это не нужно, &lt;/strong&gt;вам нужно использовать только два эксперта, те скорость инференса для МоЕ будет такой же как у 14b модели - &lt;em&gt;а это десятки токенов в секунду&lt;/em&gt;&lt;/li&gt;
  &lt;/ul&gt;
  &lt;p id=&quot;mPzV&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;A8xd&quot;&gt;&lt;/p&gt;
  &lt;p id=&quot;76o2&quot;&gt;&lt;strong&gt;ПАпиры и репы:&lt;/strong&gt;&lt;/p&gt;
  &lt;ul id=&quot;1tpL&quot;&gt;
    &lt;li id=&quot;2l60&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/2211.15841.pdf&quot; target=&quot;_blank&quot;&gt;https://arxiv.org/pdf/2211.15841&lt;/a&gt; megablock&lt;/li&gt;
    &lt;li id=&quot;wywu&quot;&gt;&lt;a href=&quot;https://github.com/stanford-futuredata/megablocks&quot; target=&quot;_blank&quot;&gt;https://github.com/stanford-futuredata/megablocks&lt;/a&gt; megablock code&lt;/li&gt;
    &lt;li id=&quot;pWtR&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/2305.14705.pdf&quot; target=&quot;_blank&quot;&gt;https://arxiv.org/pdf/2305.14705&lt;/a&gt; flan moe&lt;/li&gt;
    &lt;li id=&quot;Wame&quot;&gt;&lt;a href=&quot;https://www.notion.so/Aug-2023-OpenMoE-v0-2-Release-43808efc0f5845caa788f2db52021879&quot; target=&quot;_blank&quot;&gt;https://www.notion.so/Aug-2023-OpenMoE-v0-2-Release-43808efc0f5845caa788f2db52021879&lt;/a&gt; open moe&lt;/li&gt;
    &lt;li id=&quot;G1EY&quot;&gt;&lt;a href=&quot;https://arxiv.org/pdf/2202.08906.pdf&quot; target=&quot;_blank&quot;&gt;https://arxiv.org/pdf/2202.08906&lt;/a&gt; st moe&lt;/li&gt;
    &lt;li id=&quot;vdP4&quot;&gt;&lt;a href=&quot;https://arxiv.org/abs/2101.03961&quot; target=&quot;_blank&quot;&gt;https://arxiv.org/abs/2101.03961&lt;/a&gt; switch&lt;/li&gt;
  &lt;/ul&gt;

</content></entry></feed>