Лучшие вайфу - со смешанной генетикой. Кто такой models merging?
Вы когда нибудь были на Civit ai? Нет? Зря, вы пропустили horny merge v2022221123123 от человека с аниме автаркой и эта модель вполне может быть лучше dalle3(на домене генерации хорни аниме так точно)
Тема мержинга моделей это ебучий андегрунд, но он ОЧЕНЬ хорошо работает;
Почему? Ну например вам надо добавить новые знания в модель, и в классик вы будете учить модель на <что то> Пиздец ли вам? Скорее всего вы оверфитнетесь и пойдете нахуй.
А мержинг не проебет знаний и вы скорее всего не оверфитнетесь. Те следите за руками: учить модель градиентами часто менее профитно чем обучить одну модель на задачу X(генерировать персонажа) а другую на Y(генерировать улыбку). А затем модели мержаться и получается ээээ база?
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time
В чем идея - для того чтобы хорошо затюнить CLIP like можно обучить разные CLIP на один и тот же сет, но варьируя: lr, seed, augmentation.
Ну и после такого мержинга модели начинают лучше работать(значимо)
Для ллм так примерно и делают, работает хорошо.
Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
В чем идея: давайте возьмем WizardLM и WizardMath и будем мержить по следуюещей схеме:
Те смотрят какие параметры отилчаются в двух SFT моделях, с помощью бернули выкидывая те параметры которые одинаковые или очень близкие.
По результатам все неплохо, модели реально довольно халявно можно смержить, но мержить одновременно CODE+MATH - плохая идея
К слову все это имлементнуто тут: https://github.com/arcee-ai/mergekit?tab=readme-ov-file#merge-methods