Лучшие вайфу - со смешанной генетикой. Кто такой models merging?

Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)

Тема мержинга моделей это ебучий андегрунд, но он ОЧЕНЬ хорошо работает;

Почему? Ну например вам надо добавить новые знания в модель, и в классик вы будете учить модель на <что то> Пиздец ли вам? Скорее всего вы оверфитнетесь и пойдете нахуй.

А мержинг не проебет знаний и вы скорее всего не оверфитнетесь. Те следите за руками: учить модель градиентами часто менее профитно чем обучить одну модель на задачу X(генерировать персонажа) а другую на Y(генерировать улыбку). А затем модели мержаться и получается ээээ база?

https://civitai.com/images/4213139 ладно конкретно ТУТ лоры, но они мержаться по тому же принципу

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

В чем идея - для того чтобы хорошо затюнить CLIP like можно обучить разные CLIP на один и тот же сет, но варьируя: lr, seed, augmentation.

точно не обезьяны и точно понимаем как работает DL а не тыкаем модели GPUшкой пока не полетит

Ну и после такого мержинга модели начинают лучше работать(значимо)

Для ллм так примерно и делают, работает хорошо.

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

лучшая аниме вайфа для программирования??????

В чем идея: давайте возьмем WizardLM и WizardMath и будем мержить по следуюещей схеме:

Те смотрят какие параметры отилчаются в двух SFT моделях, с помощью бернули выкидывая те параметры которые одинаковые или очень близкие.

По результатам все неплохо, модели реально довольно халявно можно смержить, но мержить одновременно CODE+MATH - плохая идея

К слову все это имлементнуто тут: https://github.com/arcee-ai/mergekit?tab=readme-ov-file#merge-methods