состояние t2i на aug23(1/X)

Дифузионки в их текущем виде существуют с нами около года, примерно в августе 22 года вышла Stable Diffusion 1.* и попала ко мне в руки, тогда она выглядела одним из варинтов развития диффузий, сейчас она по сути единственная которая ушла в народ, но при этом не стала доступной.

Про то как так вышло, почему мы имеем 100500 LORA на аниме сиськи, но не починили проблемы "красного куба" и пойдет сегодня речь.

ну и да, магнум опус текущего положения дел это фурри ебущие аниме девочку. другого t2i у меня для вас нет - скрин отсюда https://civitai.com/models?tag=base+model

Перенесемся на 14 месяцев назад, админ сидит на кухне в ереване, думскролит ленту, а openai выпускают DALLE2 - первую диффузионную модель которая открыла второе поколение t2i и показала силу genai массам, если коротко то архитектура выгядила так:

давайте представим что тут нет какого то decoder а есть только prior, про decoder будет либо тут либо чуть позжне

Собственно да, большая часть диффузий выглядело как: text encoder(clip/t5) prior(диффузия) генерит картинку 64*64, а затем 2-3 superres ее увеличивают.
К слову так работает IF и Шедеврум, что честно говоря странно

Cледующее поколение, которое де факто стало стандартом

Собственная идея простая: зачем нам генерировать пиксельное пространство если можно генерировать latent? ну те взять всю ту же диффузию, но на выходе мы получаем не картинку 64*64, а latent vector который прогоняется через VAE decoder и вжух - картинка 256*256(а сейчас 1024*1024) что в целом удешевляет pipeline по используемым ресурсам, а еще позволяет класть модель в consumer gpu.

Вообще про доступность речь шла еще со времен CLIP + GAN - был такой метод когда смотрели CLIP lossом на картинки который генерировал GAN, тогда уже были int8, prompts и много всего еще, тогда вместо UI все пилилось в коллабах и появлились colab с UI от космического коробля, с ползунками и попытками в UI

| Помните да? Не каждый узнает, поймут только настоящие ценители

Релиз 1.3-1.4 - чем отличается, хуй знает, генерили картинки в 512, но это было не важно - вышла статья про DreamBoth, ее идея заключалась в том что давайте учить модель на class_name, а зачем модель сможет генерировать этот объект в разных окружениях/положениях при этом меняя положение объекта!

мало кто знает, но это придумал google.

Релиз sd1.5(именно 1.5) произвел ээээ, да никакого эффекта он не произвел, большая часть интернета полезла в torch lightning исходники, охуели от жизни и быстро вылезли, я сам помниться переписывал для себя инференс за пару месяцев до выхода diffusers, а потом произошло СОБЫТИЕ!!

Выше по тексту очень удобно игнорировалось существование stable diffusion discord(ныне скорее покойного) и MidJourney discord(ныне скорее недостижимого), если вы случайно не в курсе - то это сервера где тыкали модели, изучали промпты и в целом гоняли разные модели

В октябре произошло важное событие - cлив кодовой базы novel ai

Это было что то вроде spinoff части лабы которая делала оригинальный стебль, но в анимешную сторону, но при этом они решили кучу проблем - например научили модель генерить конечности, а так же решили проблему aspect ratio - ну те когда голова выступает за картинку.

Еще попытались решить проблемы с руками, но сравнительно без успехов.

Cобственно где то в этот момент расцвели анимешные тюны, automatic1111 а так же все виды оптимизаций количества параметров при обучении типа LORA, чуть позже появились механизмы LORA merge

Думаю скоро мы увидим аналогичные механизмы для LLM если решиться одно важное NO

Доступность t2i==популярность t2i

Назовите самую популярную t2i модель? sd1.5. А знаете почему? Для нее было выпущено столько LORA, фиксов и в целом дополнений добавлющие функционал к исходной что просто ужас. К тому же она всего 1B - те ее можно пихать в инфенерс на 1050ti и прочий геймерский хлам! а тюниться она всего на 8гб памяти - те ей нужны минимальные ресурсы на использование и на адаптацию к своим задачам + A1111 который позволяет руками не трогать код, но при этом содержит внутри себя фанатастически много функций.

В связи с эти популярность не пришла не к IF, не к sd2.*, не Kandinskiy2.*, комьюнтити не поддержало эти модели, слишком мало людей пошло ковырять их, а люди которые умеют писать и запускать скрипты чаще всего не очень то умеют генерировать действительно красивые картинки.

вторая часть будет про unclip k2.*, refiners и почему sd xl пока не выглядит революцией.