April 2, 2023

Чо не так с моделям(я сам не знаю, дайте пошитпостить)

Дисклеймер.

Это что то вроде обзора - мнения - пояснения для тех кто смотрит и не понимает что происходит, почему open source такой какой есть. Это мое личное мнение, оно может не совпадать с вашим .

Почему instruct подход open ai ебет весь opensource, почему жопы топов по всему миру в огне,  что не так с opensource, почему я так не люблю РРО - этот текст в целом является графоманией по теме и очень факультативен к прочтению

ебала людей в ресерч отделах meta/deepmind/... предствили? а в контекста увольнений - остается пожелать только здоровья. Для тех кто не шарит - Emad - основатель Stablity, и будущие перлы уровня Маска(верю в него, но мужик крут)

1) Практически каждый релиз OpenAl сравним с разрывом атомной, рвет жопы и волосы исследователей, толпы в твиттере заливают ленту CUMoм от качества генераций/уровня идеи, если это не произошло сейчас, значит это рванет потом(CLIP по тому какой толчок дал индустрии намного больше чем очередная копия оного от LIAON/meta/deepmind чтобы кто не говорил).

2) давайте обсудим что вообще за хуйня open Ai и почему они стали closed. Каждый раз когда кто то говорит что они open sourc_ят и вообще топят за развитие чего либо у меня встаёт вопрос: почему такая?

Тут вышел трансформер, вылили gpt1, gpt2, jukebox, куча папир про RL и менее известынх на несколько сотен миллионов от Маска и со.

В самом начале, на моделях 1-2 поколения (Bert, gpt1, gpt2, Bart) большие корпорации не могли понять как заработать.

Ну типа для поддержки - написания кода - улучшения процессов они не пригодны и требуют отдел разработки чтобы затюнить и дотянуть до прода, причем не всегда с гарантией что оно полетит)))

Такие модели спокойно сливались в опенсурс с мыслью формата: ну коммьюнити покрутит, подумает, глядишь что то придумает чо с этим делать.

Где то тут Маск закончил донатить в open Ai потому что никто не мог внятно ответить: “а как с этого получить денег”?

3) Третье поколение моделей ознаменовалось выходом gpt3, до этого вышло некоторое количество работ на тему: ну если отскейлить данные то модели лучше будут работать, вооот, делааа.

А ещё в рамках gpt2xl стало понятно что большие модели обладают incontext learning, собственно этой особенности работы attention мы должны быть благодарны за few shot(FS), инструкции и прочее.

Где тут большие ребята начали вливать больше денег в кластеры и команды + начался ковид и интернет вырос кратно.

В рамках 3 поколения моделям увеличили размеры, а затем вышла т5.

Идея простая, давайте доложим в рамках претрейна задачи, и это ожидаемо улучшило качество моделей на downstream_тасках и прочем, в целом можно было решать некоторые задачам в FS сетапе вполне успешно.

Кстати реально задач где то с 10ток кажется, мне похуй, сами проверьте если хочется душнить

Затем вышла mt0, которая показала что увеличение количества задач увеличивает качество downstream кратно, при этом такие задачи можно было очень дёшево в большом объеме сэмплировать из сетов переводов, Википедии и чуть не школьных сайтов, в итоге размеры сетов добивали до 100гб грязного и 10 чистого.

а ты знаешь героев операции против OpenAI BLOOM_Z????

Супер базированные челы назвавшие cвою T5 BLOOMZ в 2022 году, годнейшая модель про все что не касается генерации бреда, а еще MT

По каким то причинам этот подход не переносили на gpt_образные, а open source gpt не делал никто до EutherAI.

В целом mt0 и т5 стали эдакими моделями 3.25, они уже могли в ZS, но вне nlp комьюнити про них в целом мало что знали, и они не могли написать текст в стиле кэнни веста про маструбацию.

О, важный герой нашего рассказа EutherIAI, челы во главе с истенной кошкодевочкой собрались, взяли TPU grant от гугла, наскрапили the pile (wiki, news, arxiv, PubMed, GitHub и неприлично мало 4chей и всего что мы любим).

Stella Biderman - вот так должен выглядеть AI teamlead здорового человека

спойлер - мы знакомы и это скорее дружеский стеб, я бы не стал так прикалываться над незнакомыми людьми.

В общем то ребята за свои ресурсы и деньги запили на TF свои gptшки в размерах от 1.3,2.7,6b, но по каким то причинам 2.7b на тонкую обгоняла 1.5b gpt2xl на задачах, хотя данных в 20 раз больше. Ваш покорный начал крутить эти модели начиная с выхода и это было довольно неприятно. интеграции в трансформерс не было, deepspeed nanился хуй пойми почему… эх были времена

эх, было время, радовался я 400 подписчикам

Вообще подозреваю что open Ai много не договаривают про сетап данных и обучения, и в целом используют много нетривиальных хаков в обучении, большая часть open source прям совсем не умеет в Mt хоть и имеет некоторое количество токенов не английских в запасе, что нельзя сказать об open Ai моделях 2-3 поколения, ну те gpt2 что то понимает в русском языке, хотя там всего 40гб данных.

Вообще, сложно сказать почему опенсурс модели такой кал в сравнении с gpt3, я участвовал(cижу в приватном дискорде OA лол)

и мы столкнулись с тем что gptj 6b, 20b, 13b сильно всасывают gpt3 2.7b даже, не говоря о соразмерных моделях, и когда я говорю gpt3 и имею ввиду именно оригинальную, вышедшею в 2020.

Да, они учились на задачах и zero shot что то решали, но шаг лево в право от промпта и нормального контекста и качество падает, при подачи в контекст бреда модель начинала улетать в бред, ну ллама в целом неплохой бредогенератор но для серьезных задач - мало пригодно.

Ну и OA все еще сильно страдает от отсутствия GPU, 16карт на 6b+ модели это все таки смешно, хотя LIAON-HF-Euther крутит на своих тысячах карт и их это не спасает….

Пока все по чуть чуть ковыряли полные(enc-dec) трансформеры на практических задачах прикручивая их к бизнесовым штукам open Ai угорали по nlp+RL, вообще у них c RL долгая история, начиная от dota2 где использовался рро и продолжая summarization from human feedback, на которую кажет все смотрели как на какую то хрень (ну а зачем, метрик особо не докладывает, в чем реально смысл это делать, модели всасывают тем же Т5/BART ещё и сходят с ума), но ребята не сдавались и крутили свой подход дальше.

Очень забавно, что ppo очень слонж заставить докидывать бизнес метрики, ХОТЯ КАЗАЛОСЬ БЫ БЛЯТЬ, ОН СУКА ДЛЯ ЭТОГО ЗАДЕЗАЙНЕН, РОТ ЕБАЛ БЛЯТЬ

в феврале 22 я начал заводить эту хрень для одного чат бота, после этого я начал лысеть.

В паралель с этим некоторое количество стартпов с чатботами пробовали такой подход на диалогах, но учили модель следовать user preferences, но в итоге кажется все(?) Отказались от рро в пользу BoN(отранжируем и выберем лучший, просто потому что это прозе контролировать).

Почему возможно OPEN AI победит все?

Стоит отметить что крутить 1b+ модель на большое количество пользователей мягко говоря дорого, требуются дефицитные в 20-22 году gpu, mlopsы для инфры и дорогие сатанисты под разработку всего этого, в итоге чек на обслуживание модели на пользователя был довольно велик, в итоге чтобы продукт окупался он должен быть довольно прибыльным.

Крутить LLM на устройствах толком никто не пытался, по причине дороговизны и малой распространенности on device tensor processors, но думаю скоро мы увидим 1б модели в условной Siri.

Про 3.5 поколение, и всякое около

3.5 поколение в целом можно считать с марта 22 года, когда вышла instruct gpt и все такие: э, а в чем прикол?

Юзеров чат гпт апи было не много, но domain стартапа уже начинали использовать и крутить крутые коммерческие штуки (codex, grammarly - первые примеры которые приходят на ум, при этом за счёт использования open Ai API они сильно экономили на аренде gpu и обслуживании вычислений) в итоге держать свой кастом реально имело смысл под NSFW штук которые были запрещены правилами использования open Ai API.

Где то в третьем поколении стали появляться open source open Ai like, вот они справа налево: Stability Ai(LIAON, compvis(sponsored), EutherAI, какая-то хуйня для trl(carpet Ai, лютейшая хуета скажу я вам, у челов все стало грустно с выходом инстракт, да и в целом), а так же куча всего остального(похуй на 1000_форк clip), BLOOM(читать как Французкая академия наук захотела свои модели, кстати там же авторы mt0), colossal Ai (не помню уже кто спонсорит, но ребята делают неплохо и местами ОЧЕНЬ вычислительно эффективно),  Salesforce(облачный провайдер с небольшим количеством ГПУ но очень приятным собственном ресерчем авторы BLIP, модификаций CLIP и некоторого количества малоизвестных моделей).

По большей части они не делали аутентичные полезные модели и архитектуры, а в основном крутили уже существующие идеи, хотя и с интересными модификациями (Salesforce). По сути чуваки не делали что то свое, они брали папир, а в случае CLIP ещё и код модели и крутили на своих данных и ресурсах.

АНТИХАЙП!!!

тут будет небольшой кусок про то, про что никто не говорит, а оно пиздатое

Те кто делали полезные модели - часто делали под внутренние применение, GOOGLE игрался с шиншилой и PALM, а так же альтернативой Instruct подхода - chain of thoughts, при этом с COT не крутилили RL для улучшения резов, а он все равно бил sotы.

Типа модель сама себе пишет инструкции и ее это бустит, google пишет что это работает от 13б нормально, но у меня 760м начинает генерить сильно лучше
без прикола, это иногда работает даже на instruct ruGPT medium, которая вообще не о чем.

Еще есть супер маргинальные retrival lm которые все старательно игнорируют, типа давайте притворимся что их нет, а через год когда openai достанет из бэклога и пойдет ебать GPTNeo2(условно) мы вспомним и с горящей жопой побежим чинить.

Хотя в теории, они не страдают от протечки фактов, могут быть подключены чуть ли не к GOOGLE и в целом намного вкуснее чем yet another companyname_GPT_name.

Гипотеза почему openai так ебет

А знаете в чем самый прикол? Open Ai не dolboeb, в отличие от многих из людей выше и они для ВСЕХ своих моделей строят маленькую модель для проверки scaling laws.

По простому: это апроксимация loss и гиперпараметров большой архитектуры с помощью моделей поменьше, те они в начале крутят toy models до 100м параметров, на 16а100 через 100m параметров можно прогнать 140гб данных в сутки~, при этом при увеличении модели скейлиться LR и всё ( C'est fini, вы можете смотреть на график лосса большой модели и понимать когда ее остановить + можно хорошо прикинуть что там по железу)

Да, всякие штуки с ZS начинают работать с 1.3б модели, и уже нужно 160 карт на такие эксперименты для сравнения, но подозреваю что они прогоняют некоторый упрощённый сет и сравнивают качество не доучивая модель до конца,

А что делают многие и многие товарищи? Правильно, крутят 110м, смотрят что все неплохо и в целом сходиться и ставят numlayers=96. Очень умное решение, авторам рекомендую сунуть 96см за щёку (см. блогпост про gpt neox и метрики в нем).

Почему я так говорю? Я провозился с одной специфичной задачей(типа ai dungeon несколько дней с тюном GptNeo, но все полетело из коробки с gpt3 ada)

В чем цимус - gptneox имела внутри себя очень много научных текстов и как бы должна лучше перформить, ноооо разница не то чтобы велика. По сути, она сравнима с 13 моделью openai.

а еще есть куча статей формата
Тут блять не те модели сравнивают, но да ладно.

Тут еще что то должно было быть, но я потерял мысль...

  1. Подозреваю что чёт не в формате QA,(Инструкция - ответ), а в длинном варианте, те Инструкция - ответ - инструкция как исправить ответ - конечный ответ. Уж слишком хорошо openai gpt3.5 умеет повторять запросы, возможно они докрутили fill in the middle и модель сама понимает куда вставить :))))

Ещё сильнее тюнинг гиперпараметров роляет при обучении моделей с PPO, я не могу перестать ржакать с: пукпук у меня рро не растет, а потом хопхоп, переставил value head lr, покрутил random seed и всё сходиться, 10 seedoв автору в очко.

Про batch size в ppo

Попробуйте на досуге сунуть батч 64 в gpt, сильно удивитесь и задумаетесь

А еще у вас должны быть разообразные ответы, чтобы после RM были не нулевые и можно было норм обновить градиенты, а еще если класть рро само по себе модель деградирует, поэтому ее 8 эпох гонят в SFT, а затем 1 в ppo.

Хороший метод, ага, надежный блять как швейцарские часы
потому что не у кого он блять не заводиться с коробки лол(там ебля такая охуеть можно, я охуел)

А еще chat gpt не то чтобы хорошо генерализованана на задачи вне трейна, просто трейн был ОЧЕНЬ уже обширный, но если начинать копать в глубь - модель не так умна. Вопрос в том как быстро open source нарастит мышцы и полетит нормально.

Если что

Текст написанный офк chat gpt, для не специалиста вроде бы все хорошо

да он точно от AI

А вот так я теперь работаю:

Выводы? Смыслы?

Я тут шитпостю, а не это ваше, выводы делайте сами, курсы сварщиков открыты пока ещe, да и бункер не поздно выкопать.

Еще я пропустил пачку работ типа ai21, Antrophic которые меня не взяли, но если честно....

Немного про анальные ограничения ботов или почему (пока) мы кажется в безопасности.

Собственно, если показать что плохо, а что хорошо - лм начинает отлично цензурить сама себя, тут конечно есть большое поле для ресерча почему так, но у меня есть ванильная версия которая не напишет даже инструкцию как трахнуть девопса(((
Подозреваю что такие сеты есть у openai и всех крупных ребят, а мелкие толком ничего не выпустят.