August 28, 2023

Промты

Промты

/imagine

Чтобы нейросеть нам что-то сгенерировала, мы должны написать текстовый запрос (Промт), для этого вызываем в командной строке команду /imagine prompt: Запросусловно делится на несколько частей: a + b + c

a — описывает то, что вы хотите и его характеристики
b — обеспечивает стиль изображения
с — информация о размере, рендеринге и других параметрах

На 5 версии MidJourney стала еще более заточена под разговорный язык для запросов - тут этот ии очень похож на Chat GPT. Как это на практике- ты пишешь "покажи мне" "show me" или "создай мне" "сreate", то есть запрос становится похожим на обращенную речь и дает сразу классные результаты. Это не значит, что не надо знать настройки, но нейросеть будто бы лучше тебя понимает.

Мы много экспериментировали с написанием запроса, и пришли к нескольким интересным выводам. Первое - пятая версия очень умная, иногда есть ощущение, что чем меньше слов в Промте, тем лучше результат.

Перефразируя - чем больше мы накидаем всего, сами не понимая, что это значит, тем больше вероятность, что это либо сделает результат хуже (будут примеры), либо нейросеть проигнорирует это в запросе. Представьте себе, как мыслит нейросеть. Ей надо сложить ваш запрос в единую картинку, и когда мы накидываем "все лучшее сразу" - ей сложнее нас понять.

Как мы можем помочь ей нас понять правильно? Тестировать и анализировать - мы не делаем бездумно. Когда мы тестируем, мы добавляем и убираем по одному токену (часть промта), чтобы понять влияние. Иначе мы не поймем, если накидаем сразу огромнейший промт, что повлияло и как.

Для правильного составления промта в Midjourney следуйте этим советам:

  1. Длина промта: Промты могут быть простыми, состоящими из одного слова или фразы. Однако для создания уникальных изображений рекомендуется использовать более подробные промты. Слишком длинные промты могут быть избыточными, поэтому сосредоточьтесь на основных концепциях.
  2. Грамматика: Midjourney Bot не понимает грамматику, структуру предложений или слова как человек. Выбирайте слова тщательно и используйте более конкретные синонимы, если это возможно. Удаляйте слова, когда это возможно, и используйте запятые, скобки и дефисы для организации мыслей.
  3. Фокусировка на желаемом: Опишите то, что вы хотите, а не то, чего не хотите. Если вы хотите избежать наличия определенного объекта на изображении, используйте параметр --no в промте (об этом будет отдельный гайд).
  4. Обдумывайте важные детали: Если вы не укажете конкретные детали, они будут выбраны случайным образом. Будьте ясны относительно контекста и деталей, которые важны для вас. Рассмотрите такие аспекты, как предмет, среда, освещение, цвет, настроение, композиция и т. д.
  5. Используйте коллективные существительные: Для большей конкретики используйте числа или коллективные существительные. Например, вместо "кошки" используйте "три кошки" или "группа кошек".

Помимо этого, вы можете использовать ссылки на изображения (Image Prompts) и параметры (Parameters) для настройки стиля и содержания результата, а также изменения различных аспектов генерации изображения.

Про Image Prompts будет отдельный урок и гайд

Структура промтов включает в себя:

  1. Базовые промты: могут быть простыми, состоящими из одного слова, фразы или эмодзи (смайла).
  2. Расширенные промты: могут включать одну или несколько ссылок на изображения, несколько текстовых фраз и один или несколько параметров.

Промты могут быть составлены из следующих элементов:

  1. Image Prompts: ссылки на изображения, которые влияют на стиль и содержание результата.
  2. Prompt Text: текстовое описание желаемого изображения.
  3. Parameters: параметры, которые меняют способ генерации изображения (например, соотношение сторон, модели, улучшители изображений и многое другое).

Вот так выглядит ускоренно процесс генерации - здесь я писал статью, что это такое - почитать:

Здесь видно наглядно, как пишется и запускается эта команда.

Тут видно, что нет окошка для написания промта, и бот нам подсказывает, что нужно еще поле промт (курсор после imagine, и все появится
Так выглядит, когда правильно пишем в окошко
Красным загоряется, если пишем вне рамках окна

ИНСТРУМЕНТЫ ДЛЯ РАБОТЫ С ВЫБОРКОЙ СГЕНЕРИРОВАННЫХ ИЗОБРАЖЕНИЙ

Midjourney создает по запросу сетку из 4 вариантов изображений с низким разрешением для каждого задания. По умолчанию обычно это квадрат 512x512 пикселей.

На примере подписана нумерация картинок.

Дальше мы можем работать с ними через кнопки.

U1 U2 U3 U4

Кнопки U = Regular (Default) Upscaler: Повышает размер изображения, сглаживая или уточняя детали. Стандартный и оптимальный вариант.

V1 V2 V3 V4

Кнопки V создают вариации выбранного изображения. При создании варианта создается новая сетка из 4 изображений, аналогичная общему стилю и композиции выбранного изображения.

Кнопка (re-roll) перезапускает задание. В этом случае он перезапустит исходную подсказку, создав новую сетку изображений.

Если нас устроил результат генерации, мы нажимаем на апскеил (U) , если не устроил - или re-roll или кнопку V. Чтобы посмотреть выборку из четырех сгенерированных изображений, мы на них нажимаем и они открываются крупнее.

АЛГОРИТМ УВЕЛИЧЕНИЯ ИЗОБРАЖЕНИЯ

Когда мы выполнили апскейл какого-то изображения с нашей сетки из 4 изображений, под ним появляются такие кнопки. Нажатие Web позволит открыть картинку в максимальном ее разрешении и скачать.

Также есть кнопка Make Variations (чтобы создать еще 4 варианта).

Light upscale увеличивает разрешение картинки до 1024x1024, но добавляет меньше деталей. В режиме Beta можно получить размер вдвое больше Regular - 2048x2048, но этот режим работает нестабильно. На 5 версии видим под генерациями только regular upscale (базовые кнопки U1, U2, U3, U4). Либо их нужно вызывать через команду /settings Но по сути режимы beta и light чаще только делают генерацию хуже.

ВАЖНО: каждый апскеил - это еще одна генерация из вашего пакета минут.

Самый современный искусственный интеллект для повышения качества и улучшения изображений - https://www.upscale.media/ru/

Надо учитывать, Midjourney в момент апскейла "дорабатывает и меняет" немного саму картинку. К примеру, вам мог понравится зайка на выборке из 4 генерации, а при нажатии на U с его номером вы получите уже немного измененное изображение. Это надо принять)

Вот такого зайку сгенерировала сеть, а теперь смотрим на лапки на апскейле
Лапы изменились и пропало два яйца)

В MidJourney апскейл происходит только х2.

Рассмотрим все типы на примере одной генерации.

Тут специально увеличен скрин с выборки до апскейла(1 из 4 вариантов)
Regular( соответствующая кнопка U с номером под генерациями) - поменялись листья на фоне, лапы птички, пряди волос, зато дорисовались глаза)
Light Upscale- стиль больше похож на работу маслом, с глазами тут беда.
Beta Upscale - тут появляется такая резкость, но глаз недоработан. Но в целом не так плохо.

Этот сайт поможет проверить качество картинки и увеличить разрешение и размер.

Remaster

Когда мы выполнили какую-то версию апскейла - light или beta, появится кнопка remaster. Ее функция - обновить и улучшить уже сгенерированное изображение, однако мы работаем на 4 и 5 версии, где это не требуется.

Зато мы можем протестировать эту функцию на первых версиях MidJourney .

На первой, второй и третьей версиях эта кнопка появляется сразу после первого базового апскейла

ПОЛЕЗНО: Тут я показываю графу поиск - иногда бывает, что нужная нам генерация, с которой мы хотим опять поработать или забрать оттуда Промт, находится высоко - далеко). Тогда мы вспоминаем какое-то слово, по которому бот нам найдет нужное место и отмотает к той генерации.

Сверху над генерацией у нас написана версия, 4 версия вообще не пишется.

Находим кнопку remaster и нажимаем.

Тут мы видим процент выполнения задачи и наш режим в соответствии с тарифом. Когда процент выполнения дойдет до 100, эти цифры пропадут.

В верхней строке выделена прямоугольником надпись запроса(промта), с которым мы работаем (это не только в режиме remaster, но и для всех генераций, производных от изначальной сетки изображений). Нажав на сам Промт, мы перенаправимся к исходной генерации.

Можете посмотреть, как это получилось)

UPDATE: С выходом v 5.1 режим remaster можно применить и к сгенерированным изображениям в самых новых версиях - для этого через /settings нажатием/отжатием активируем режим, и тогда он будет действовать при нажатии на одну из базовых кнопок апскейла U1, U2,U3, U4. При этом кнопки будут не синего, а зеленого цвета. Каждый ремастер будет создавать новую четверку изображений. Потом режим отключаем.

Итак, возвращаемся к структуре запроса.

Где мы берем описания для запроса?

  1. Создаем сами
  2. Берем у кого-то идею (отдельным уроком будет про то, как вытаскиваем Промт из чужой генерации)
  3. Пользуемся ботом для генерации промтов
  4. Используем конструкторы промтов - есть несколько сайтов , два из них мы рассмотрим подробнее ( с этим пока не торопимся)

https://midjourney-prompt-helper.netlify.app

https://prompt.noonshot.com

Запрос (Промт) состоит из нескольких частей, желательно собирать его в таком порядке:
[ОБЪЕКТ] [ЛОКАЦИЯ] [ПАРАМЕТРЫ ОСВЕЩЕНИЯ] [ТЕХНИЧЕСКИЕ ПАРАМЕТРЫ — такие, как --ar 16:9 и т.д.]

ВАЖНО: все параметры через двойное тире -- ВСЕГДА ставим в конец запроса!

Бот общается с нами на языке python, поэтому нам важно понимать, что каждая часть промта (запроса) - это токен. И нам нужно их разделять. Как разделяем?

Используйте запятую, для мягкого разделения в промте и :: для жесткого разделения. Кажется, будто бы разница не существенная, но это не так.

Смотрим пример:

/imagine prompt сat, dog

/imagine prompt сat:: dog

Тут мы в целом почему-то оказались без кошки на изображении, поэтому тестируйте, если иногда выходит не тот результат - пробуйте запятую вместо двойного двоеточия и наоборот.

Двойное двоеточие нам понадобится также для назначения веса подсказке - об этом ниже.

Для того, чтобы разобраться в структуре написания промта, мы сначала определяем, кого или что генерируем, его характеристики, потом уже место (антураж/локацию), свет, стиль и потом уже технические параметры.

Самое простое для начала - после смысловой части добавить стиль изображения, и посмотреть, что получается.

Стиль

Существуют разные стили , названные по именам художников, дизайнеров, архитекторов, фотографов, школ, анимационных студий, скульпторов, создателей комиксов, таких как Marvel.

Также существуют стили : графика, живопись, фото, ретро, скетч, лайнарт, вектор, акварель и многие другие. Акварели будет посвящено отдельное занятие.

Сейчас посмотрим на стили художников, их существует большое количество) Чтобы добавить картинке определенную стилистику, мы добавляем в Промт by studio Ghibli (после by любого художника или школу/направление - на английском)

ВАЖНО: Опытным путем выяснилось, что когда мы хотим добиться определенной стилистики, то степень влияния подсказки будет зависеть от количества других деталей запроса - чем их больше, там меньше будет выражена стилистика. Поэтому, прежде чем накидывать в Промт после указания стиля другие уточнения, сначала посмотрите в чистом виде, как влияет выбранная стилистика.

Пример. Сначала смотрим промт, где много значений:

gorgeous girl with flowing hair, a detailed close-up portrait, gorgeous red lips and dress, by Rei Kamoi, beautiful sad eyes shiny, smooth, realistic, divine, celestial, elegant, accent lighting, ambient lighting, backlight, octane render

Тут очень невыраженная стилистика

Убираем все, что после стиля, и смотрим результат:

gorgeous girl with flowing hair, a detailed close-up portrait, gorgeous red lips and dress, by Rei Kamoi

Разница колоссальная

Большой список художников тут

Вы можете еще искать нужные вам стили и тестировать их, само собой, некоторые не художники, а архитекторы, например Zaha Hadid, и такой стиль можно использовать в запросе на визуализацию архитектуры и интерьеров.

Сейчас покажу несколько примеров стилей на одном Промте:

Стили графики

Смотрим, какой ключ за них отвечает, генерации на примерах котиков.

Не всегда нужно иметь большой Промт - важно знать ключ (тот токен) , который максимально понятно даст задачу нейросети.

Пример того, когда стиль ставим на первое место в запросе (вместо <style> подставить любую подсказку из примеров ниже)

/imagine prompt <style> sketch of a cat

1. Block print. 2. Folk. 3. Cyanotype
4. Graffiti. 5. Paint-by-Numbers 6. Risograph
7. Ukiyo-e. 8. Pencil Sketch. 9. Watercolour
10. Pixel Art. 11. Blacklight painting. 12. Cross Stitch
13. Life Drawing. 14. Continuous line. 15. Loose gestural
16. Blind contour. 17. Value Study. 18. Charcoal Sketch

AR

Параметр --aspect или --ar изменяет соотношение сторон сгенерированного изображения. Соотношение сторон — это соотношение ширины и высоты изображения. Обычно это выражается двумя числами, разделенными двоеточием, например 7:4 или 4:3.

Соотношение сторон по умолчанию 1:1.
--aspect должны использовать целые числа. Используйте 139:100 вместо 1,39:1.
Соотношение сторон влияет на форму и композицию сгенерированного изображения.
Некоторые соотношения сторон могут немного измениться при масштабировании.

1:5 это то же самое, что и 10:50

Первым указывается параметр ширины, второй отвечает за высоту.

Для картинки сториз, к примеру, надо задавать параметр --ar 9:16

Можно создавать даже длинные развёртки (такое может быть нужно при создании лендингов)

--ar 5:1
--ar 1:5

На этом данный урок подходит к концу, а я дам вам еще два необычных ключа, они выделены жирным - при их использовании вы получите необычные эффекты - в первом случае будет крутое рассветно-закатное освещение красивое с лучами и бликами, а во втором случае будет эффект макросьемки макета города. Повторяйте и делитесь результатами)

create me magic insect, bug, close shot, golden hour:: --ar 3:2

abandoned street, tilt shift:: --ar 3:2

Vandart1 мая, 23:50

209 просмотров

4 реакции

4

0

Оставьте комментарий

M

Sketchman (Denis)