March 18

Stable Diffusion XL. Выбираем модели, рефайнеры, лоры и стили

  1. Различия между пресетами
  2. Базовые модели
  3. Универсальные модели, пригодные для реализма
  4. Специализированные модели: аниме
  5. Модели-рефайнеры
  6. Стили
  7. Лоры
  8. Бонус: галерея моделей
  9. Продолжение следует

Ес­ли ты соберешь­ся запус­кать на сво­ем компь­юте­ре генера­тив­ные модели для соз­дания изоб­ражений, то перед тобой вста­нет серь­езная проб­лема выбора: их мно­жес­тво, и все они дают похожие, но все же нем­ного раз­ные резуль­таты. В этой статье погово­рим об этих отли­чиях, а так­же о рефай­нерах, сти­лях, лорах и осо­бен­ностях пром­птин­га.

В качес­тве инс­тру­мен­та по‑преж­нему будем исполь­зовать Fooocus. В то же вре­мя эта статья — пос­ледняя, где я его исполь­зую. В сле­дующий раз перей­дем на более прод­винутую сбор­ку — AUTOMATIC1111.

Последние новости генеративного ИИ

Ге­нера­тив­ные ней­росети раз­вива­ются со ско­ростью мыс­ли. Не успе­ла вый­ти пре­дыду­щая статья, как новос­ти посыпа­лись слов­но из рога изо­билия.

Раз — и раз­работ­чики Fooocus выпус­кают Stable Diffusion WebUI Forge, свой собс­твен­ный опти­мизи­рован­ный форк популяр­ней­шего AUTOMATIC1111. Новая сбор­ка про­дол­жает тра­диции Fooocus — она работа­ет «из короб­ки» и не тре­бует доработ­ки напиль­ником, как ори­гиналь­ный про­ект.

Два — и Stability AI, раз­работ­чики Stable Diffusion, выпус­кают пред­варитель­ную сбор­ку нового поколе­ния ней­росети, Stable Cascade, погонять которую мож­но пря­мо в онлай­не, но мож­но и уста­новить на свой компь­ютер по ссыл­ке с GitHub.

Три — и ком­пания ByteDance, раз­работав­шая TikTok, выпус­кает про­ект SDXL-Lightning, который поз­воля­ет генери­ровать изоб­ражения за доли секун­ды — быс­трее, чем SDXL Turbo, и с более высоким качес­твом. К при­меру, кар­тинка ниже была соз­дана за восемь секунд в раз­решении 2024 на 2024; в стан­дар­тном для SDXL раз­решении 1024 на 1024 изоб­ражения соз­дают­ся менее чем за секун­ду. Базовую модель мож­но оп­робовать на сай­те Hugging Face, но луч­ше ска­чать модель dreamshaperXL_lightningDPMSDE с Civitai и исполь­зовать ее локаль­но (толь­ко вни­матель­но озна­комь­ся с инс­трук­циями — это важ­но).

И уже ког­да я писал эту статью, приш­ла совер­шенно неожи­дан­ная новость: Stability AI выпус­тила Stable Diffusion 3, пока толь­ко в виде превью для раз­работ­чиков.

В новой вер­сии Stable Diffusion (кста­ти, не сов­сем понят­но, как она соот­носит­ся с релизом Stable Cascade) обе­щают мно­го хороше­го, при этом поч­ти дос­ловно идут по пун­ктам из пресс‑релиза Midjourney V6. Пер­вые при­меры впе­чат­ляют, но на то они и дем­ки.

РАЗЛИЧИЯ МЕЖДУ ПРЕСЕТАМИ

В прош­лый раз мы генери­рова­ли фоторе­алис­тичные изоб­ражения, запус­тив Fooocus коман­дой run_realistic.bat, одна­ко фотог­рафи­ями Stable Diffusion не огра­ничи­вает­ся. Запус­тив ней­росеть коман­дой run.bat, мы авто­мати­чес­ки перек­лючим­ся на дру­гие, уни­вер­саль­ные нас­трой­ки. Из стро­ки негатив­ных клю­чеви­ков про­падут тер­мины, зап­реща­ющие художес­твен­ные сти­ли, а из спис­ка под­клю­чен­ных «лор» исчезнет та, которая отве­чает за фоторе­алис­тичность.

При запус­ке какого‑либо фай­ла Fooocus исполь­зует нас­трой­ки из соот­ветс­тву­юще­го пре­сета (они лежат в пап­ке Fooocus\presets). По этой при­чине сто­ит запус­кать фай­лы кор­рек­тной коман­дой в зависи­мос­ти от типа изоб­ражений, которые ты собира­ешь­ся генери­ровать.

Раз уж мы загово­рили о пре­сетах, то раз­ница меж­ду фоторе­алис­тичны­ми (run_realistic.bat) и основны­ми (run.bat) нас­трой­ками такова.

В фоторе­алис­тичном пре­сете базовая модель — realisticStockPhoto_v10, лора — SDXL_FILM_PHOTOGRAPHY_STYLE_BetaV0.4, негатив­ные клю­чевые сло­ва — unrealistic, saturated, high contrast, big nose, painting, drawing, sketch, cartoon, anime, manga, render, CG, 3d, watermark, signature, label, активные по умол­чанию сти­ли — динами­чес­кий стиль Fooocus V2, а так­же Fooocus Photograph и Fooocus Negative.

В основном же пре­сете, который запус­кает­ся коман­дой run.bat, нас­трой­ки дру­гие. В качес­тве базовой модели авто­ры выб­рали juggernautXL_version6Rundiffusion (хорошая уни­вер­саль­ная модель), лора — sd_xl_offset_example-lora_1.0 (ее пред­назна­чение с дефол­тной нас­трой­кой — уве­личи­вать кон­траст; на высоких весовых коэф­фици­ентах может помочь генери­ровать изоб­ражения с глу­боким чер­ным цве­том). Никаких негатив­ных клю­чевых слов на сей раз нет, а в качес­тве сти­лей выс­тавлен набор из уже зна­комо­го динами­чес­кого улуч­шай­зера Fooocus V2 и новых сти­лей Fooocus Enhance и Fooocus Sharp.

Зна­чение здесь име­ет бук­валь­но всё, и нач­нем мы с глав­ного — выбора базовой модели.

БАЗОВЫЕ МОДЕЛИ

Ба­зовая модель, или чек­поинт, — это генера­тив­ная модель, исполь­зуемая для пре­обра­зова­ния тек­ста в изоб­ражения алго­рит­мами Stable Diffusion. В зависи­мос­ти от выбора модели на один и тот же зап­рос с одним и тем же сидом и про­чими нас­трой­ками ты можешь получить как похожие изоб­ражения, выпол­ненные в раз­ных сти­лях, так и совер­шенно раз­ные кар­тинки.

В качес­тве основных Fooocus под­держи­вает толь­ко модели SDXL 1.0, а вот в качес­тве рефай­нера (Refiner) может исполь­зовать как их, так и ста­рые модели от SD 1.5. О рефай­нерах мы погово­рим чуть ниже; пока что ты можешь ска­чать одну или нес­коль­ко моделей в допол­нение к juggernautXL_version6Rundiffusion, которую Fooocus ска­чает авто­мати­чес­ки при запус­ке run.exe. Сох­ранять чек­поин­ты нуж­но в пап­ку Fooocus\models\checkpoints или в любую дру­гую, если ты ука­жешь к ней путь в фай­ле Fooocus\config.txt. Нап­ример, так:

"path_checkpoints": "d:\\Models\\Stable-Diffusion\",

Пос­ле это­го мож­но нажать Refresh all files, и модель появит­ся в спис­ке.

Поч­ти все модели в боль­шей или мень­шей сте­пени осно­ваны на самой пер­вой модели, которую выпус­тила ком­пания Stability AI. Они допол­нялись новыми дан­ными, получен­ными в резуль­тате обу­чения; авто­ры ремик­сов добав­ляли улуч­шения и тон­кие нас­трой­ки. В резуль­тате раз­ные модели могут замет­но раз­личать­ся меж­ду собой как по общей ком­позиции изоб­ражения, так и по качес­тву кар­тинки.

Ни­же — неболь­шое срав­нение моделей по зап­росу «photorealistic, cinematic, close view of a redhead woman in 19th century clothing of a woman mechanic fixing a steampunk car» с под­клю­чен­ным кас­томным сти­лем Cinematic: «cinematic angle, cinematic lighting, highly detailed, amazing, finely detailed, more realistic, Ultra HD 32k, cinematic, 4k, footage from an epic movie, clear focus, detailed character design, ultra-high resolution, perfectly composed, UHD».

Вот так отра­бота­ла модель Bastard V1:

А в галерее ниже — резуль­таты дру­гих моделей:

Мо­дели: Softfantasy Dark Edition, Cinevisionxl By Socalguitarist Easily, realisticStockPhoto v10

Мо­дели: raffaelloxl Real People 10, Yggdrasil V2 и mjLnir SDXL Lightning v10

Об­рати вни­мание в пер­вую оче­редь на раз­ницу в ком­позиции. «Тем­ная» Dark Edition разитель­но отли­чает­ся от «гол­ливуд­ской» CineVisionXL; фоторе­алис­тичные модели пыта­ются в реализм, модель Yggdrasil V2 вос­созда­ет атмосфе­ру, исполь­зуя ори­гиналь­ную цве­товую палит­ру, а модель mjLnirSDXLLightning_v10, хоть и напута­ла с паль­цами, сумела сге­нери­ровать кар­тинку все­го за восемь ите­раций (осталь­ным моделям для это­го пот­ребова­лось сорок).

Где скачать модели

Ба­зовых моделей раз­ных типов и поколе­ний мно­жес­тво, и далеко не все под­держи­вают­ся в Fooocus. В качес­тве основной можешь взять одну из моделей SDXL 1.0, ска­чать их мож­но с сай­та Civitai. В пра­вом вер­хнем углу сай­та будет зна­чок «филь­тр»; выбери нас­трой­ки, как на скрин­шоте.

С такими нас­трой­ками отоб­ража­ются все модели незави­симо от воз­раста (All Time), толь­ко базовые модели (Checkpoint), толь­ко SDXL 1.0. Пос­ледняя нас­трой­ка (All) вклю­чает отоб­ражение как обу­чен­ных моделей (Trained), так и ремик­сов (Merge).

Мо­дели быва­ют двух типов: обу­чен­ные (Trained) и ремик­сы (Merged). Обу­чен­ными обыч­но счи­тают модели, автор которых нат­рениро­вал (обу­чил) модель на том или ином наборе изоб­ражений. Впро­чем, доволь­но час­то обу­чен­ными моделя­ми называ­ют ремик­сы, для которых раз­работ­чик про­вел допол­нитель­ное обу­чение на отно­ситель­но неболь­шом наборе дан­ных.

С ремик­сами про­ще: их авто­ры объ­еди­няют нес­коль­ко раз­ных моделей и лор с задан­ными весовы­ми коэф­фици­ента­ми. Самый прос­той при­мер — добав­ление «фоторе­алис­тичной» лоры в одну из моделей, что допол­нитель­но уве­личит весовые коэф­фици­енты имен­но фотог­рафий.

В зависи­мос­ти от вку­са, чувс­тва меры и мас­терс­тва раз­работ­чиков получа­ются более или менее инте­рес­ные ремик­сы. Моделей — тысячи, переп­робовать все невоз­можно даже теоре­тичес­ки. Ты можешь прос­то отсорти­ровать их по популяр­ности, а можешь вос­поль­зовать­ся моими рекомен­даци­ями.

УНИВЕРСАЛЬНЫЕ МОДЕЛИ, ПРИГОДНЫЕ ДЛЯ РЕАЛИЗМА

AlbedoBase XL — прек­расно сба­лан­сирован­ная модель, которая уме­ет всё. Мно­гие авто­ры ремик­сов исполь­зуют эту модель в качес­тве осно­вы.

Bastard Lord (SDXL) с сай­та Tensor.Art — одна из луч­ших про­тес­тирован­ных мной моделей. По качес­тву она близ­ка к Midjourney V6. Эта модель — резуль­тат сов­мес­тной работы двух раз­работ­чиков: Freek22 (автор нес­коль­ких моделей семей­ства Norsk) и Afroman4peace (автор мно­гочис­ленных моделей, в том чис­ле отличных моделей Hephaistos и Colossus XL).

Brookers Style XL, она же Reality Check XL, — обу­чен­ная модель с укло­ном в реализм. Спо­соб­на выдавать уни­каль­ные резуль­таты, непохо­жие на работу дру­гих моделей.

Bifröst Project с сай­та Tensor.Art — мощ­ная модель, в сос­тав которой вош­ли как дру­гие модели того же авто­ра (в том чис­ле обу­чен­ные), так и некото­рые сто­рон­ние. Рекомен­дую обра­тить вни­мание и на дру­гие модели это­го авто­ра на том же сай­те или на сай­те Civitai.

CineVisionXL и, что­бы два раза не вста­вать, «фотог­рафичес­кая» ProtoVision XL, «3D-муль­тяш­ная» DynaVisionXL и «ноч­ная» NightVisionXL того же авто­ра — сба­лан­сирован­ные модели, отве­чающие заяв­ленным целям. Нап­ример, в «кинош­ной» CineVisionXL даже самые прос­тые зап­росы выпол­няют­ся так, как буд­то кадр был пос­тавлен гол­ливуд­ским режис­сером — с соот­ветс­тву­ющим осве­щени­ем и динами­кой.

EnvyHyperrealXL01 — сба­лан­сирован­ный ремикс с укло­ном в тур­боре­ализм (не путать с реалис­тичным реализ­мом). Кста­ти, рекомен­дую обра­тить вни­мание и на дру­гие модели того же авто­ра.

raffaelloxlRealPeople — нес­мотря на то что это ремикс, мне не уда­лось пов­торить резуль­таты работы этой модели ни в одной дру­гой. Харак­терные чер­ты модели — детали­зиро­ван­ные лица и тек­сту­ры, высокий мик­рокон­траст.

Realistic Stock Photo — тебе уже дали пер­вую вер­сию этой модели в сос­таве Fooocus, но с тех пор выш­ла вто­рая. Это отличная обу­чен­ная реалис­тичная модель. Раз­ницу меж­ду пер­вой и вто­рой вер­сиями мож­но уви­деть на при­мерах ниже.

При­мер пер­вой вер­сии

При­мер вто­рой вер­сии

SDVN6-RealXL — модель, обу­чен­ная на фотог­рафи­ях лиц. Спо­соб­на выдавать неиз­битые пор­тре­ты, непохо­жие на сге­нери­рован­ных фотомо­делей. Но этим дело не огра­ничи­вает­ся: в модели — пол­ный набор художес­твен­ных средств.

Есть мно­го дру­гих дос­той­ных вни­мания моделей; перечис­лить все невоз­можно, да я и не став­лю такой цели. Есть cherryPickerXL, Hephaistos NextGen, Luna Mia, Softfantasy Dark Edition и мно­го дру­гих инте­рес­ных моделей.

СПЕЦИАЛИЗИРОВАННЫЕ МОДЕЛИ: АНИМЕ

Ани­меш­ные модели отно­сят­ся к спе­циали­зиро­ван­ным, так как они работа­ют с собс­твен­ным син­такси­сом, о чем нуж­но рас­ска­зать под­робнее.

В Stable Diffusion 1.5 был единс­твен­ный кон­вей­ер тек­сто­вого декоде­ра. В целом модель работа­ла луч­ше, если ука­зыва­лись клю­чевые сло­ва через запятую.

В Stable Diffusion XL исполь­зует­ся два кон­вей­ера: клас­сичес­кий CLIP-ViT/L и OpenCLIP-ViT/G, спо­соб­ный рас­позна­вать зап­росы на естес­твен­ном язы­ке. Базовая модель, выпущен­ная Stability AI, под­держи­вает работу с обо­ими кон­вей­ера­ми; соот­ветс­твен­но, ремик­сы, осно­ван­ные на этой модели, так­же работа­ют как с клю­чевы­ми сло­вами, так и с зап­росами на естес­твен­ном язы­ке.

И тут приш­ли любите­ли кар­тинок в сти­ле ани­ме. В качес­тве источни­ка кар­тинок для обу­чения взя­ли базы мно­гочис­ленных сай­тов-booru, а там поч­ти для каж­дой кар­тинки ука­заны наборы тегов: что изоб­ражено, как, в каком сти­ле, кто автор. И все это в машино­чита­емом фор­мате.

Со­ответс­твен­но, в этих моделях основную работу выпол­няет кон­вей­ер L, а кон­вей­ер G оста­ется прак­тичес­ки не при делах. Через какое‑то вре­мя эту проб­лему решили, исполь­зовав оче­ред­ной искусс­твен­ный интеллект для про­цес­са CLIP Interrogation, в рам­ках которо­го ИИ ана­лизи­рует изоб­ражение и выда­ет тек­сто­вый зап­рос для выб­ранно­го типа кон­вей­ера.

На выходе получи­лись модели, обу­чен­ные на хорошо струк­туриро­ван­ных базах и допол­ненные тек­сто­выми зап­росами на естес­твен­ном язы­ке, которые были сге­нери­рова­ны оче­ред­ным искусс­твен­ным интеллек­том.

В резуль­тате ани­меш­ные модели мак­сималь­но чет­ко сра­баты­вают на триг­геры в виде клю­чевых слов, но и обыч­ные фра­зы тоже понима­ют (хоть и через раз). Если твоя цель — кар­тинки в ани­меш­ном сти­ле, то спе­циали­зиро­ван­ная модель поз­волит получить более качес­твен­ный резуль­тат с мень­шими уси­лиями.

Ос­новных ани­ме‑моделей две.

PonyDiffusion-V6XL. Веро­ятно, это самая популяр­ная модель: для нее сущес­тву­ют сот­ни сти­лей и лор. Если ты ска­чаешь эту модель, сде­лаешь зап­рос и получишь в резуль­тате что‑то нев­нятное, серое и в условно трех­мерном сти­ле — про­читай под­робную инс­трук­цию по ссыл­ке выше, ука­жи в зап­росе стиль (из кол­лекции на GitHub), исполь­зуй спе­циали­зиро­ван­ную лору или один из ре­мик­сов. Напом­ню толь­ко, что лоры так же, как и сама модель, дол­жны быть в фор­мате SDXL 1.0.

animagine3.0 — име­ет смысл почитать докумен­тацию к этой модели на Hugging Face и на сай­те CagliostroLab.

На осно­ве каж­дой из этих двух моделей соз­дано огромное количес­тво ремик­сов, в которых сра­зу «из короб­ки» будет исполь­зован какой‑нибудь кон­крет­ный стиль.

Ес­ли ты исполь­зуешь A1111 или WebUI Forge, рекомен­дую уста­новить рас­ширение, которое пре­дот­вра­тит появ­ление арте­фак­тов при генера­ции с эти­ми моделя­ми.

МОДЕЛИ-РЕФАЙНЕРЫ

Ког­да выш­ла пер­вая базовая модель Stable Diffusion XL, ее раз­работ­чики пре­дус­мотре­ли воз­можность на пос­ледних шагах генера­ции исполь­зовать вто­рую, допол­нитель­ную модель для мел­кой детали­зации и исправ­ления неболь­ших огре­хов модели основной. Модели‑рефай­неру нет необ­ходимос­ти качес­твен­но декоди­ровать зап­рос, ей впол­не дос­таточ­но того изоб­ражения (в латен­тном еще прос­транс­тве), которое до нее сге­нери­рова­ла основная модель.

Поль­зовать­ся рефай­нером дос­таточ­но прос­то: под­клю­чаем, выс­тавля­ем весовой коэф­фици­ент (об этом чуть ниже) — про­фит! Или нет.

Для начала про­ясню воп­рос с весовым коэф­фици­ентом. Циф­ра ука­зыва­ет, какую часть работы дол­жна выпол­нить ос­новная модель; оставшу­юся часть выпол­нит рефай­нер. То есть если ука­зать коэф­фици­ент 0.8, как на скрин­шоте, то 80% генера­ции выпол­нит выб­ранная модель albedobase, а оставши­еся 20% — модель RealStockPhoto.

С боль­шинс­твом сов­ремен­ных моделей исполь­зовать рефай­нер для допол­нитель­ной детали­зации и исправ­ления мел­ких огре­хов кар­тинки, как это было пре­дус­мотре­но раз­работ­чиками, уже нет нуж­ды; об этом же пишут и сами раз­работ­чики моделей. Одна­ко не сто­ит забывать о кре­атив­ном потен­циале перек­лючения на дру­гую модель в про­изволь­но выб­ранный момент генера­ции; не сто­ит, одна­ко, и пре­уве­личи­вать зна­чение это­го потен­циала.

И пос­леднее: если в качес­тве основной Fooocus под­держи­вает толь­ко модели SDXL, то рефай­нером могут быть как SDXL, так и SD 1.5.

СТИЛИ

Вы­бор сти­лей дос­тупен на вклад­ке Style.

По сути, сти­ли — это все­го лишь рас­ширения зап­роса тем или иным набором клю­чевых слов. Все сти­ли ста­тич­ны, за исклю­чени­ем сти­ля Fooocus V2, который исполь­зует локаль­ную вер­сию GPT-подоб­ного ИИ для динами­чес­кого рас­ширения зап­роса (каж­дый пос­леду­ющий обра­баты­вает­ся отдель­но, и раз­ные кар­тинки даже в одном пакете будут сге­нери­рова­ны с раз­ными зап­росами). Сти­ли мож­но пред­ста­вить в сле­дующем виде:

style_keyword1, style_keyword2, . style_keyword3, style_keyword4, style_keyword5

Ко­личес­тво клю­чевых слов не огра­ниче­но, но увле­кать­ся не сто­ит. Пом­ним о лимите в 75 токенов, по дос­тижении которо­го стро­ка зап­роса будет раз­бита на нес­коль­ко, и мес­то раз­рыва ты не смо­жешь про­кон­тро­лиро­вать.

Для всех пос­леду­ющих тес­тов я отклю­чил сти­ли по умол­чанию (глав­ное — динами­чес­кий стиль Fooocus V2), убрал все негатив­ные клю­чевые сло­ва, отклю­чил все лоры и рефай­нер. Для демонс­тра­ции раз­ных сти­лей я исполь­зовал один и тот же зап­рос, одну и ту же модель и один и тот же сид.

Для срав­нения сти­лей я исполь­зовал зап­рос «photorealistic, cinematic, close view of a redhead woman fixing a steampunk car», модель BastardV1 и сид 1125477473. Раз­решение — 1024 на 1024 с пос­леду­ющим удво­ением раз­мернос­ти.

Так выг­лядит изоб­ражение безо вся­ких сти­лей:

А в галерее ниже исполь­зуют­ся раз­ные сти­ли — как из спис­ка Fooocus, так и те, которые я сос­тавил самос­тоятель­но.

Это — мой собс­твен­ный стиль Cinematic
А это — встро­енный стиль Fooocus Cinematic; замет­но отли­чает­ся
Счи­тает­ся, что как‑то так «рису­ет» Midjourney V5
Пря­мо «радис­тка Кэт» получи­лась
А тут «Инди­аной Джон­сом» пове­яло
Стим­панк‑стим­панк

И наконец, я про­тес­тировал и динами­чес­кий стиль Fooocus V2, допол­ненный сти­лем Fooocus Masterpiece.

По­лучив­шаяся дама име­ет мало обще­го с авто­меха­ником

Про­тес­тировать все сти­ли — огромная работа, но поль­зовате­ли в сети регуляр­но это про­делы­вают. Есть, нап­ример, за­меча­тель­ный документ со срав­нени­ем всех сти­лей в боль­шой таб­лице с кар­тинка­ми (его об­сужде­ние тоже дос­той­но вни­мания).

Кста­ти, в таб­лице для каж­дого сти­ля при­водит­ся и его пол­ная рас­шифров­ка.

ЛОРЫ

Бла­года­ря лорам мож­но научить поч­ти любую базовую модель исполь­зовать ту или иную кон­цепцию (нап­ример — «лучи све­та в пыль­ной ком­нате»), пер­сонажам или сти­лям (нап­ример, сти­лям кон­крет­ных худож­ников или нап­равле­ниям живопи­си), но этим дело не огра­ничи­вает­ся.

Су­щес­тву­ет класс лора‑слай­деров, которые поз­воля­ют, к при­меру, ме­нять мас­штаб изоб­ражения, для чего дос­таточ­но прос­то изме­нить их весовой коэф­фици­ент в ука­зан­ном раз­работ­чиком диапа­зоне (иног­да в доволь­но широких пре­делах, начина­ющих­ся с отри­цатель­ных зна­чений). Быва­ют лоры, ука­зыва­ющие ней­росети на необ­ходимость добавить детали­зации или, наобо­рот, упростить кар­тинку (нап­ример, лора AddDetail).

Для моделей семей­ства Pony Diffusion нуж­но исполь­зовать спе­циали­зиро­ван­ные лоры, так как эти модели лишь в нез­начитель­ной час­ти вклю­чают в себя базовую модель SDXL. Таких лор на сай­те Civitai впол­не дос­таточ­но; как пра­вило, в них вклю­чены кон­крет­ные сти­ли и пер­сонажи.

Мо­дели LoRA отно­ситель­но ком­пак­тны и занима­ют поряд­ка 60–150 Мбайт, что замет­но мень­ше стан­дар­тно­го раз­мера базовой модели (око­ло 6,5 Гбайт).

Для при­мера рас­смот­рим все тот же зап­рос: «cinematic, close view of a redhead woman in 19th century clothing of a woman mechanic fixing a steampunk car», но добавим стиль: «in the style of esao andrews, esao andrews style, esao andrews art, esao andrews».

Вот как выг­лядит генера­ция без лоры.

А теперь — с ней (лора — FF-Style-ESAO-Andrews-LoRA).

Мно­гие лоры прек­расно работа­ют в сочета­нии со сти­лями. Здесь я ском­биниро­вал лору со сти­лем Cinematic.

А тут — под­клю­чил стиль Midjourney.

БОНУС: ГАЛЕРЕЯ МОДЕЛЕЙ

Из спор­тивно­го инте­реса я прог­нал генера­цию по тому же зап­росу с одним и тем же сидом на нес­коль­ких десят­ках раз­ных моделей. Чаще все­го вари­анты ока­зыва­лись доволь­но похожи­ми, но некото­рые модели выдали инте­рес­ный резуль­тат. Вот лишь нес­коль­ко при­меров.

socafaeXL, sahastrakotiXL, SorcererXL-3, xi_v10

Fenrisxl V16.4, NewdawnXL3.1 bf16, SoftFantasy Heavensfall, Better than words v3.0

Artium v20, easelEssenceXL v10, weekendWarriorVaeXL v10, aderekSDXL v15 DPO

Altar SDXLRealistic v10, fantasyAndRealityXL v10, LahMysteriousSDXL v40, paintersCheckpointOilPaint v11

ПРОДОЛЖЕНИЕ СЛЕДУЕТ

Да, мы все еще обсужда­ем прог­рамму, которая и уста­нав­лива­ется, и запус­кает­ся коман­дой run.bat, име­ет одно поле вво­да и кноп­ку Generate, одна­ко эта тема еще не исчерпа­на. В про­дол­жении я пла­нирую рас­ска­зать о том, на что вли­яют парамет­ры Guidance Scale (он же — CFG value) и Image Sharpness (это не о кон­турной рез­кости).

Да­лее будет беседа о том, какие быва­ют сем­пле­ры и чем они отли­чают­ся, о моделях LCM, Turbo и Lightning, поз­воля­ющих в разы уско­рить генера­цию.

На­конец, пос­ле это­го мож­но будет перехо­дить на сле­дующий по слож­ности про­дукт — Stable Diffusion WebUI Forge. В общем, про­дол­жения сле­дуют!