Мои впечатления от Midjourney

Уже года три, как я регулярно слышу: нейросети оставят художников без работы! Нет смысла учить анатомию и перспективу! Надо осваивать нейросети!🥱
Какое-то время я игнорировал искусственный интеллект, как и все новые технологии. Дед внутри меня всегда с недоумением смотрит на эти ваши биткоины, VR-очки, электросамокаты и спиннеры🧐 Единственный раз, когда я пытался ворваться во что-то хайповое, была история с NFT, но это только сделало моего внутренного деда более уверенным в своём мировоззрении.

Но хайп от нейросетей с годами всё не угасал, продолжали появляться всё более красивые картинки за авторством искусственного интеллекта, некоторые мои коллеги по стокам во всю начали использовать ИИ в работе, а в каждой второй вакансии для 2d-художника я видел в требованиях: умение работать с Midjourney 🤔

Ок, дед принимает правила игры, платит 30$ за месячную подписку и идёт закидывать нейросети в море. И первым делом вылавливает саблезубую рыбу собаку.

Это был первый запрос, который пришёл в голову. Тому, кто вспомнит, в каком мультсериале упоминалась "саблезубая рыба-собака", шлю виртуальное рукопожатие. С первого же раза Midjourney начал выдавать классные варианты всяких страшных рыб.

Ок, пробую что-то более конкретное. Мне нужно было сгенерировать двух копов в ночном городе, один — худой белый, второй — упитанный афроамериканец. Не спрашивайте, зачем 👮 Иначе придётся ткнуть вас лицом в капот, подбросить наркотики и сообщить, что вы имеете право хранить молчание. С таким запросом пришлось повозиться, изучить больше функций и параметров, доступных Midjourney 🤓 Силами ИИ сложно делать картинки, где больше одного персонажа, он периодически путается в описаниях и не может понять, какие из прилагательных к какому персонажу относятся. Периодически он выдавал картинки с двумя толстыми полицейскими, или с двумя чернокожими. После 50-60 картинок и применения функции Vary(region) получился нужный результат.

Получилась отличная картинка в стиле мрачного голливудского боевика. Анатомия, лица, руки, количество пальцев - всё вышло чётко. Фон и освещение вообще отлично 💡 Освещение кстати Midjourney всегда выставляет здорово. Потом решил сделать двух копов с теми же характеристиками, но в настроении комедийного фильма. И в этой попытке я нагенерил почти 300 картинок, но так и не получил того, что хотел. Либо только один персонаж получался хорошо, либо какое-то размытое изображение получилось. В общем лучший результат выглядел так, и это не то, что было надо:

Теперь пришло время посмотреть, насколько ИИ готов вытеснить стоковых художников с рынка. Начал с простых объектов. Взял одну из своих свежих работ с ботинками и попробовал сделать такую же, но силами Midjourney. Минут за 15 получилось добиться такого результата:

Да, по стилю это далеко не то же самое, что у меня, но если предположить, что клиент искал просто мультяшную картинку с ботинками в стиле классических тимберлендов, то такой результат вполне мог бы его устроить. Но это не вектор, и есть мелкие артефакты на шнурках и металлических люверсах. Тем не менее за 15 минут вполне подходящая под запрос картинка.

В следующем раунде попробовал сделать линейный скетч-рисунок боксерских перчаток🥊Ориентир — одна из моих работ. В этот момент уже появилась версия Midjourney 6.0 и можно было переключаться между 6 и v5.2, потому что в новой версии работали ещё не все функции. И вот на этом запросе заметна серьезная разница между последней и предпоследней версией. Вот что раз за разом выдавала версия 5.2

Просто не было ни одной нормальной картинки, форма боксерских перчаток не укладывалась в искусственной голове Midjourney, а вот что может 6-ая версия:

Здесь уже всё отлично с формой, но много всяких лишних точек и штрихов. И мне нужно было изображение без полутонов, только чёткие черные линии и белый фон. Пришлось ещё долго объяснять нейросети, что мне нужно, и закидывать в неё примеры картинок с соотвествующим исполнением. Причем, если добавить к текстовому описанию картинку, где просто кубики нарисованы в нужном стиле, то получится мутант из кубиков и боксёрской перчатки. Более-менее подходящий результат получился, после того как я скормил нейросети картинку в нужном стиле с боксерскими перчатками, что уже немного абсурдно.

Но даже после такого из 8 картинок только 1 получилась приемлемой (верхний левый угол), на остальных есть серьезные косяки.

А вот со скетчем смартфона Midjourney справился очень круто. С первой попытки выдал то, что надо. Но стоит заметить, что такое я и сам нарисую минут за 10-20.

Раньше для стоков я часто рисовал разных животных. Мне такие картинки даются долго и непросто. А миджорни в этом направлении справляется лучше и быстрее меня. Это стоит признать.

Пробовал делать бесшовные паттерны, у Midjourney есть параметр tile, который позволяет делать бесконечные изображения, он иногда даёт сбои, но в целом работает хорошо и даже сложные реалистичные изображения может сделать бесшовными 👍 Например, вот эта фотореалистичная картинка с текстурой льда безупречно складывается в бесшовный паттерн. Руками такое практически невозможно сделать.

А вот рисованные паттерны, особенно с простыми элементами, гораздо проще сделать руками. Midjourney разве что тут может подкинуть идеи, но почти невозможно его заставить создать правильные объекты и правильно их раскидать по холсту. Тем более векторный паттерн сделанный руками легче задействовать для создания разных вариаций по цвету и т.п.

Следующий тест был на создание минималистичных иконок. В качестве задачи взял свой сет на тему информационной безопасности . Сначала попробовал сразу создать сет из 9 нужных иконок. Тут без шансов. На картинке ниже выдача из 4 вариантов. Во всех наберётся только 4 иконки из нужных 9 штук.

Значит, если нам нужны иконки, придётся генерить каждую по отдельности. В предыдущей выдаче не было ни одной удачной иконки с ключом, я решил сделать иконку ключа отдельно. Получилось, но времени ушло столько же, сколько нужно на ручной отрисовку подобной иконки.

Учитывая, что при создании иконок по отдельности, будет тяжело получить сет иконок в одном стиле, чтобы была идентичная детализация, толщина линий и т.п. Так что в такой задаче, живой я справлюсь гораздо эффективнее робота 😎

И возвращаясь к простым мультяшным картинкам с простыми предметами на белом фоне, тут тоже не всегда всё гладко. Например, я хотел получить картинку с одним бананом на белом фоне.

Казалось бы, картинки неплохие, но мне нужен ОДИН! банан, и как я не пытался это объяснить, Midjourney всегда выдавала связку из двух бананов.

Раз уж дело дошло до бананов, я не мог не попробовать сделать конкурента для своих знаменитых бананов-персонажей.

Ни одного хорошего варианта.

Были такие, на основе которых можно было руками дорисовать до нормального результата.

Но ни одного полноценного варианта.

Дальше не стал уже пытаться. Очевидно, что тут лучше справлюсь я со своими кожанными руками. И моего векторного персонажа будет проще редактировать для анимации, комикса или просто для иллюстраций в разной одежде. В общем, в банановом раунде я без шансов разнёс искусственный интеллект😎

Если говорить о более сложных и детальных персонажах, то тут тоже мало шансов получить готовую крутую работу. Здесь Midjourney может помочь просто погенерировать идеи, дать референсы для дальнейшей ручной работы.

Вот например, я пытался нарисовать злого Карлсона, который летает над городом с огромным миниганом.

При беглом взгляде может показаться, что все картинки классные: детали, цвета, свет, динамичная композиция, но если присмотреться к рукам и оружию, то происходит что-то странное 🤔 Ни у одного из персонажей нет пропеллера за спиной, они просто парят в воздухе. Ну и никто из них не имеет сходств с оригинальным Карлсоном. Попробовал добавить к описанию скриншот из советского мультика и картинку с миниганом, вот что вышло:

Картинки прикольные, но появились какие-то полосы по краям кадра на всех изображениях, оружие везде выглядит странно, если посмотреть больше 5 секунд. И самое главное - ни на одной картинке у персонажа нет пропеллера за спиной. И сколько я не пытался менять описание, Midjourney не выдал ни одного варианта с пропеллером. Так что по итогу мы получаем только интересные картинки для генерации идей и последующей ручной отрисовки.

С конкретными известными персонажами Midjourney справляется получше. Захотелось сделать серию иллюстраций с культовыми аниме-персонажами, но в повседневной одежде на повседнемном фоне. Получилось классно, проблема только в том, что не выходит сделать всю серию в едином стиле.

Кто узнал всех, тот получает невидимую хрустальную сову и место за столом знатоков.

Для того, чтобы создать анимешную картинку с более конкретным запросом, мне пришлось помучиться, прежде чем я получил такой результат:

Там было очень много попыток и промежуточных вариантов, которые я потом сохранял и заново закидывал картинкой в запрос для Midjourney. В какой-то момент у меня была такая картинка:

И мне захотелось добавить ей большой розовый пузырь от жвачки через функцию Vary(region), когда можно выделить конкретную область и изменять картинку только в пределах выделения. Беда в том, что чем меньше выделенная область, тем более странно себя ведёт Midjourney.

Последний вариант — мой любимый 😆

Будем надеяться, что в дальнейших версиях эту функцию доведут до ума, потому что без неё возможности сильно ограничены. В идеале, конечно, нужна возможность работать по слоям: отдельно генерировать фон, второй и первый план, и вносить изменения в каждый слой, не задевая другие. Но такое, я думаю, реализуют не скоро.

⚠️⚠️⚠️

А теперь расскажу про одну картинку, которая для меня ставит крест на использовании сгенерированного контента для продажи на стоках и для коммерческого использования ❌ Я исследовал функцю describe (это когда скидываешь Midjourney картинку, она выдаёт 4 текстовых описания, по которым ты можешь сгенерировать подобные картинки. Я закинул картинку с кадром из сериала про Бивиса и Батхеда, программа выдала длинное текстовое описание, я сделал генерацию по этому тексту, и вот что я получил:

Если вы знаете про сериал "Рик и Морти", вы видите, что тут 2 полноценных персонажа из сериала, не просто какая-то часть от персонажа узнаётся в генерации, а два отдельных персонажа полностью скопированны из сериала 😱 А в запросе не было ни слова про Рика и Морти*. И если человек, например, ни разу в жизни не слышал про Рика и Морти, и просто генерил себе персонажей, в этот момент мог подумать: "ВАУ! Нейросеть сгенерила мне классных оригинальных персонажей, буду делать с ними свой комикс или использовать в рекламной компании своего продукта." 💩А потом человек с головой окунётся в говно, когда узнаёт, чьи это персонажи, от комментаторов в сети или ещё хуже от адвоката правообладателя.

Если нейросеть может выдать такую картинку на запрос, в котором нет ни прямого, ни косвенного упоминания Рика и Морти, то где гарантии, что в любой генерации не будут грубо нарушены чьи-то авторские права? Нейросеть не ворует как художник. Нейросеть ворует как трижды отсидевший уголовник без всяких моральных ограничений и угрызений совести.

⚠️ *UPD 22.01.2024 После того, как я опубликовал статью, меня попросили скинуть полный запрос для вышеупомянутой картинки. Я его уже проверял и скидывал до этого одной из своих коллег. Но после повторной проверки я заметил, что был неправ, косвенная отсылка к Рику и Морти всё-таки есть:

two cartoon characters are standing on a lawn, in the style of pop culture references, wes benscoter, associated press photo, alex hirsch, lasar segall, lively facial expressions, spiky mounds

В запросе упомянуты 2 имени. Я гуглил оба и в первый раз ни нашёл никакой связи с сериалом. Но когда перепроверял, всё-таки обнаружил, что одно из имён Alex Hirsh имеет упоминание Рика и Морти на своей странице в википедии. Хирш был одним из актёров озвучки сериала.

На мой взгляд это, по-прежнему не оправдывает того, что Midjourney вставила в картинку двух полноценных персонажей из сериала, которого не было в запросе. Но всё-таки деталь с именем существенная, и немного объясняет логику нейросети. Тем не менее не вижу никаких гарантий, что вы защищены от грубого нарушения авторских прав при использовании Midjourney.

Ещё интересные случаи были, когда я генерил текстуры. Приглядитесь 🤓

Нейросеть генерирует картинки с водяными знаками 😅 Видимо, на случай если вы хотели, чтобы ваша работа выглядела как украденная со стоков.

Кстати, в целом текстуры Midjourney по большей части генерит добротно.

Главная проблема, что иногда не получается никак втолковать роботу, что мне нужна текстура на плоской равномерно освещённой поверхности, без всяких перспективных искажений, и он часто делает что-то такое:

Подводя итоги о том, что из себя представляет Midjourney, могу сказать, что это хороший ИНСТРУМЕНТ, который умелые руки смогут эффективно использовать в работе. Именно ИНСТРУМЕНТ❗ а не РАБОТНИК, потому что сам по себе Midjourney не сделает работу за вас и не заменит художника. Просто нажать на кнопку и сгенерировать нужную картинку нельзя, нужно каждый раз возиться с грамотным составлением запроса, дорабатывать варианты, перебирать кучу сгенерированных картинок и направлять нейросеть на путь праведный. Временами это гораздо более утомительно, чем рисовать вручную 🤬 В работе с нейросетью нет никакого состояния потока и творческой эйфории, это нудная монотонная работа с текстом и анализом полученных результатов 🫤 Ещё надо учитывать, что даже в Fast-режиме картинки генерируются не мгновенно, и вот это ожидание, достаточно длительное, чтобы раздражать, и не достаточное для того, чтобы переключиться на другое дело пока идёт генерация — такой дополнительно изматывающий фактор.

❌ И вот теперь представьте, как какой-нибудь дядя решил, что не будет платить художнику/дизайнеру и сам сгенерит рекламный макет для своего автосервиса в нейросетях 😂 Он пошлёт всё на хер через 10 минут.

❌ Или например, в рекламных агентствах, могут решить: давайте сократим всех дизайнеров и наш проектный менеджер сам будет генерить всё в midjourney ☝️ Он же умеет ставить задачу художнику, значит сможет и с нейросетью справиться. Да, человек, который справляется с функциями проектного менеджера, сможет освоить Midjourney и делать в нём успехи, только после этой работы у него не останется ни времени, ни сил на свою основную работу с клиентами, а результаты всё равно нужно будет доделывать вручную в графических редакторах. То есть как ни крути нужен отдельный работник для этого.

❌Можно предположить, что те, кто покупал картинки на стоках, перестанет покупать и начнёт всё генерировать сам, ведь на первый взгляд запрос для нейросети похож на поисковый запрос 🤓 Но это не поисковый запрос, это гораздо более сложно и трудоёмко, чем выбрать из готовых прошедших отбор картинок с ключевыми словами 😐 И я напомню, что Midjourney не делает вектор или изображения с прозрачным фоном 😐 И я напомню, месячная подписка на Midjourney стоит 30$, на шаттере за 29$ можно купить месячную подписку, которая позволяет купить 10 изображений. Для большинства людей даже по деньгам Midjourney не станет более выгодным решением, не говоря уже о времени, нервах и рисках с авторскими правами.

✅ Кому она может подойти, так это каким-нибудь SMM-дизайнерам, которым регулярно в большом объеме нужны картинки, чтобы проиллюстрировать какие-то посты/сторис/статьи и при этом не нужна конкретика, а просто иллюстративное сопровождение на общую тему. Тут очень бодро нейросеть может выдавать контент.

✅ Ну и круче всего Midjourney подходит там, где нужно генерить концепты и новые идеи: для игр, кино и т.п. Иногда нейросеть может навести на мысль, которая вообще не могла придти тебе в голову.

Midjourney — крутая программа, и надо полагать будет становиться ещё круче. И была бы она бесплатной, я бы время от времени использовал её в работе, но по цене 30$ в месяц на данный момент она мне не нужна вообще.

Планирую поизучать другие рисующие нейросети, платные и бесплатные. Буду держать вас в курсе 👋