September 14, 2023

самогонная LM (phi0-1)

Мало кто знает, но современные технологии очень сильно упрощают приготовление самогона - достаточно накрутить клапан на 3/4 дюъма поверх мультиварки и поставить внутрь брагу на режим борща. ну или слегка пошаманить с arduino, это по вкусу

Так что то я отвлекся - речь сегодня пойдет о самой жоповзрывной работе этой осени - PHI1, если совсем коротко то авторы учат на хитром сете И ЛУЧШЕ лламы в 10 раз больше по параметрам. Ебальники ресерчеров представили?

ну вы видели? видели да? не каждый поймет, только прошаренные мле из топ перцентилей начнут писать про то что это даталик а вы все не шарите!!!

происходит не классическая история про то как у 6 phd нет денег на кластер, но есть яйца ебать 10х модели(возможно)

Про данные

Коротко: взяли кусок FALCON(aka common crawl для зумеров который почистили), взяли куски StackOverflow и кодовых сетов и куски гита. GZA23 это у них такие названия статей (ага), дабы повысить себе хирш авторы цитируют свою же phi, если коротко - то авторы говорят - большая часть корпусов кода писали либо индусы либо по накурке - те это тупо ебучие куски классов-сеттеров и прочего рандомного говна, давайте это не будем пихать в нашу прекрасную модель будущего, а сделаем его сами

  • Соберем чистые куски кода со StackOverflow, the stack
  • Нагенерим из gpt4 оценок насколько сэмпл полезен для обучения студента, а затем дистилируем в random forest поверх embed api, что позовляет поскейлить дата процессинг в разы.
We then use this annotated dataset to train a random forest classifier that predicts the quality of a file/sample using its output embedding from a pretrained codegen model as features

  • Соберем на 1б токенов синты из gpt3.5(это где то 10гб, сопоставимо с текущими aligment сетами)
  • Накидаем пачку задачек(хз они нихуя не описывают) и скажем что это хорошо

И ТУТ ПРОИСХОДЯТ ((((ЧУДЕСА))) оказывается если учить модель писать работающие куски снипетов кода, а не кормить ей PLAIN куски кода то.... МОДЕЛЬ НАУЧИТЬСЯ ПИСАТЬ короткий работающий КОД, ВАУ ДА?

Ну или пойти срать в твиттер, тут кому что больше нравиться

К слову за счет чистоты данных и того что данные изначально были сильно лучше чем Crawl модель получилась довольно соевой - развести ее на разговоры о круглости тензоров не выйдет!

Скорее всего часть из этих подходов перекачают в llama3, gptneo2 и прочие поделки. В целом подход выглядит очень живым, а вот outperformит ли phi1.5 llama13b - это действительно интересно.

Короткий ответ: не совсем, авторы учат LM на задачах которые сильно похожи на бенчмарки, а вот что будет на широком домене - интересно. Инструктивные файнтюны и время покажут, а я вам расскажу.

админ.