Generative AI
September 24, 2024

FLUX vs Stable Diffusion XL: что лучше?

Сегодня у нас для разбора два мощных инструмента генерации изображений: Stable Diffusion XL от Stability AI и FLUX от Black Forest Labs. Посмотрим, как они справятся с одинаковыми задачами :)

Протестируем их на одинаковых промтах в Phygital+, чтобы сравнить, какой инструмент лучше справляется с генерацией изображений. Погнали!

Текстовая генерация

Давайте начнём с главного вызова для большинства AI-моделей генерации изображений — текст в картинках.

Мы использовали следующие промты:

  • "a neon sign saying 'WELCOME TO SPACE'"
  • "graffiti mural on a brick wall that reads 'Art Lives Here'"
  • "a tattoo on an arm reading 'DREAM ON'"

Результаты очевидны: FLUX оказался победителем в категории типографики. Stable Diffusion XL испытывал сложности с созданием разборчивого текста: буквы вышли слишком хаотичными. В случае с татуировкой текст был немного лучше, но все равно FLUX с лёгкостью выиграл в текстовой генерации, обеспечив четкость и точность каждой надписи.

Человек

Многие AI модели испытывают трудности с созданием реалистичных лиц и правильного количества пальцев и конечностей у человека в целом. Мы протестировали оба инструмента на следующих запросах:

  • "a ballerina on stage"
  • close-up portrait of an elderly woman with kind eyes and slight smile
  • a group of children playing in a park
  • В категории портретов Stable Diffusion XL показал себя лучше: реалистичный портрет (использовали модель RealVis 5) с естественными морщинами и мягкой улыбкой. У FLUX лицо получилось слишком "глянцевым", как для рекламы, без реалистичных деталей.
  • При генерации балерины FLUX снова оказался впереди. Несмотря на небольшие ошибки в изображении пальцев, общий вид фигуры и движение балерины более натуральные. У SDXL проблемы с руками и губами — не хватает пальцев, несмотря на использование негативного промпта.
  • В изображении группы детей, играющих в парке, FLUX также лидирует. Динамика и общая атмосфера сцены выглядят живо, хотя при детальном рассмотрении можно заметить небольшие огрехи с руками. SDXL же выдал смазанное изображение с полупрозрачными ногами и лишними конечностями, что показывает его слабость в генерации групповых сцен.

В итоге, FLUX уверенно лидирует в изображении движения и групповых сцен, но SDXL лучше справляется с реалистичными портретами.

Художественные стили

Качественные и реалистичные AI-изображения очень важны, но нельзя забывать и о цифровом искусстве. Пора проверить, насколько универсальны FLUX и SD XL. Могут ли они работать в разных стилях?

Мы использовали такие промты:

  • “pixel art, cozy cabin in the woods at night in winter, smoke rising from the chimney, stars twinkling in the sky”
  • “digital rendering of a mountain range at dawn, created using low-poly style with sharp, angular shapes and flat colors”
  • “a girl walks alongside a large, friendly forest spirit, capturing the feel of Studio Ghibli films like 'My Neighbor Totoro' or 'Spirited Away'”

Здесь сразу две модели в лидерах. FLUX строго придерживается описанного стиля (например, low poly) и не допускает ошибок, как крупных (например, дублирование горного хребта), так и мелких (двойной дымоход). SD XL же добавляет больше деталей, например, на пиксельной картинке заснеженные ели, теплый свет — атмосфера считывается лучше, чем на такой же картинке от FLUX.

Специфические примеры использования

Давайте перейдем к практике. Как эти модели справляются с реальными сценариями, такими как проектирование дома с помощью искусственного интеллекта или создание концепт-арта?

Задали такие промты:

  • "3D render of a sleek smartphone on a reflective surface"
  • “fantasy character design: female elf mage in battle gear, holding a magic staff in right hand and a fireball in the left hand"
  • "modern house design, photorealistic, wet ground, glass windows"

Это одна из тех категорий, где модели показывают равномерные результаты, но все же FLUX выигрывает благодаря высокому визуальному качеству, а Stable Diffusion XL — благодаря детализации, особенно это видно на примере дизайна фантастического персонажа: SD XL здесь считал и показал и магический шар, и посох, и текстура боевой экипировки круче прорисована.

Сложные сцены

Теперь о главном в нашем сравнении FLUX и Stable Diffusion XL. При более длинных и сложных промтах моделям ИИ сложно уловить все детали, которые могут запросить пользователи. Давайте посмотрим, как они справятся со сценой, которая заставила бы попотеть человека-художника:

"ancient temple deep in a jungle at dawn, partially covered in moss and vines, weathered stone steps with stone statues with glowing eyes on both sides, massive intricately carved golden door, dense jungle alive with exotic birds and lush flora in the background, waterfall cascades from cliffs on the right, mist catching first rays of sunlight creating a rainbow over the temple, james gurney's style, atmospheric and ethereal, rich earthy tones mingled with golden highlights, mystical and serene ambiance"

Чтобы более точно оценить результаты, разложим промт по частям с указанием того, сколько частей промта было выполнено:

  • ancient temple deep in a jungle at dawn, partially covered in moss and vines

С этой частью справились обе модели, но SD XL показал древний храм более реалистичным и заброшенным; во FLUX же он более "свежий".

  • weathered stone steps with stone statues with glowing eyes on both sides

Со ступенями справились обе модели, но вот со статуями не справились. Только в SD XL видно нечто похожее на небольшие статуи, и птиц он счел за статуи.

  • massive intricately carved golden door

FLUX смог проявить золотую дверь, а вот SD XL с этим не справился, к сожалению.

  • dense jungle alive with exotic birds and lush flora in the background

Густые джунгли лучше показаны в SD XL, а вот экзотическую флору и птиц не удалось показать, только в качестве статуй. FLUX не справился с птицами, а сами джунгли выглядят не так реалистично как в SD XL.

  • waterfall cascades from cliffs on the right

С водопадом получилось и у FLUX, и у SD XL, только показали их с разных сторон.

  • mist catching first rays of sunlight creating a rainbow over the temple

С туманом и радугой отлично справилась модель SD XL, FLUX хоть и не показал радугу, но уловил запрос про лучи солнца.

Итог

Flux — инструмент, созданный для тех, кто хочет максимально быстро и эффективно создавать уникальные визуалы.

  • Для кого подойдёт: маркетинговым командам и креативным агентствам, которые часто работают с фирменными стилями и создают визуалы для рекламных кампаний.
  • Сильные стороны: высокая степень настройки, возможность интеграции брендированных цветов и стилей, быстрая генерация графики для рекламных и креативных проектов.

Stable Diffusion XL — более универсальный инструмент для работы с генерацией изображений, который идеально подойдёт тем, кто ценит точность и разнообразие выходных изображений. В отличие от Flux, SDXL ориентирован на более глубокую проработку деталей. Идеально подойдёт для создания изображений, которые требуют максимальной фотореалистичности или художественной выразительности, например, в дизайнерских студиях или в процессе создания концепт-арта для игр и фильмов.

  • Для кого подойдёт: художникам, гейм-дизайнерам и студиям, которым нужны сложные сцены с высокой детализацией.
  • Сильные стороны: мощная проработка деталей, реалистичные текстуры, возможность создания сложных и глубоких изображений с высокой степенью фотореалистичности.

Если вам нужен инструмент для создания рекламных креативов — выбирайте FLUX. Если ваша цель — глубокие, детализированные изображения с максимальной фотореалистичностью — обратите внимание на Stable Diffusion XL.

Оба этих инструмента есть в Phygital+. Го потестите сами :)