Подробная инструкция по работе с Veo 3. Промты. Нюансы.

1. Сначала основы

Промпт — это ваш мини-сценарий: он содержит описание сцены, эмоций, движений и деталей. Чем подробнее и структурированнее промпт, тем лучше получится видео.

Описание делится на 2 уровня:

основной текст (кто, зачем, что делает, где происходит действие, диалоги персонажей, конфликт)
дополнительные детали, такие как эмоции голоса, звук, свет и движения камеры.

Используйте последовательность сверху вниз: сначала указывайте основные детали, затем добавляйте дополнительные технические параметры.

2. Структура

Включайте в свой запрос следующие элементы кадра:

Субъект: Кто или что находится в кадре — человек, животное, объект или пейзаж.
Контекст: Где находится субъект? В помещении? На городской улице? В лесу?
Действие: Ваш субъект идет, прыгает, поворачивает голову?
Стиль: Визуальная эстетика, к которой вы стремитесь (кинематографическая, анимационная, стоп-кадровая и т. д.).
Движение камеры: Опишите, как движется камера: аэросъемка, уровень глаз, сверху вниз или снизу вверх.
Композиция: Как кадрируется кадр: широкий план, крупный план и т. д.
Атмосфера: Настроение и освещение. Вы можете задать такие вещи, как "теплые тона", "синий свет" или "ночное время".

*Также вам нужно включить аудиоэлементы, которые мы рассмотрим подробнее ниже.

3. Важность запроса.

Хорошо составленный запрос — ключ к созданию хороших видео. Чем более подробно вы сформируете запросе, тем лучше VEO 3 поймет и генерирует видео. Давайте сравним 2 запроса: простой запрос без уточнения деталей, который мы оставляем на произвол судьбы и подробный, в котором содержатся те самые структурные элементы, о которых мы писали выше.

Простой запрос: "Мужчина отвечает на ротационный телефон."

Пример получившегося ролика: https://t.me/Veo3clips/6

Смотреть здесь

Подробный запрос: "Трепещущий зум: начинается с размытого изображения человека в поношенном зелёном плаще, отвечающего на ротационный телефон на грязной кирпичной стене, освещённой неоновым светом. Зум приближается к лицу, показывая напряжение и отчаяние. Фон размытый с неоновыми цветами и тенями, создавая ощущение срочности и изоляции."

Пример получившегося ролика: https://t.me/Veo3clips/7

Смотреть ролик

4. Согласованность персонажа

Для того, чтобы картинка получалась целостной и герои сквозь разные кадры выглядели одинаково, рекомендуем заранее сформулировать подробное описание персонажа, которое можно повторять дословно при других запросах.

Также можно заранее подготовить фото-референс или удовлетворительный стоп-кадр готового героя и воспользоваться качественной генерацией “Текст + фото” в нашем боте. Лучше попросить ChatGPT описать ваш фото-референс текстовым промтом и использовать этот промт дальше при генерации видео в Veo 3. Чем более уникальными и специфичными будут эти описания, тем лучше Veo 3 будет поддерживать визуальное постоянство между отдельно сгенерированными сценами.

Давайте посмотрим на примере, как работает согласованность описания персонажа в 2 отдельных запросах:

Пример запроса: Михаил, мужчина лет 40 с короткими каштановыми волосами, в синей куртке и очках, задумчиво говорит: «Здравствуйте, я персонаж, специально придуманный для этого гайда(без субтитров!)». Он находится в ярко освещенной комнате.

Пример получившегося ролика: https://t.me/Veo3clips/8

Смотреть ролик

Пример запроса 2: Михаил, мужчина лет 40 с короткими каштановыми волосами, в синей куртке и очках, задумчиво говорит: «Здравствуйте, тоже Михаил, и я выгляжу примерно так же, как тот парень (без субтитров!)». Он находится в ярко освещенной комнате.

Пример получившегося ролика: https://t.me/Veo3clips/8

Смотреть ролик

5. Аудио. Диалоги

Поскольку Veo 3 генерирует аудио к каждому видео, нам необходимо задавать и эти параметры. Рассмотрим, какие могут быть аудио-элементы:
1. Что говорят люди (диалог)
2. Фоновый шум сцены (звуки оживленной улицы, офиса, кафе и т.д.)
3. Звуковые эффекты или шумы извне (например, звонок телефона)
4. Любая музыка, которая может понадобиться сцене (напряженный кинематографический саундтрек, веселая поп-песня и т.д.).

Прописывание диалога и как избежать субтитров

Вы можете задать диалог двумя способами:
1. Правильно: "Парень говорит: Меня зовут Михаил"
2. Неправильно: "Парень говорит свое имя"

Хотя оба варианта приведут к видео с говорящим парнем; только первый использует точные слова из запроса, а второй позволит модели самой решить, что сказать и как его зовут.

Старайтесь делать диалог коротким. Это должно быть что-то, что можно сказать примерно за 8 секунд.
Если вы пытаетесь вместить слишком много, то можете получить персонажа, который говорит слишком быстро. И наоборот, если вы просите их сказать слишком мало, это может привести к неловким паузам или персонаж заговорит бессмысленный AI-бред (как во втором примере ниже). Без четких указаний модель не сможет придумать подходящие слова.

Прописывание диалога и как избежать субтитров

Сейчас попросим Veo 3 создать видео с комиком, который рассказывает шутку. Сперва мы даем Veo 3 решить, какую шутку рассказать. А во втором видео мы просим Veo 3 рассказать шутку, которую мы предложили.

Пример запроса 1: Стендап-комик рассказывает неловкую шутку на музыкальном фестивале, звуки групп людей вдалеке, шумная толпа, фон оживлённой фестивальной площадки

Пример получившегося ролика: https://t.me/Veo3clips/10

Смотреть ролик

Пример запроса 2: Стендап-комик рассказывает неловкую шутку на музыкальном фестивале: «Знаете, что замечательно в музыкальных фестивалях? Видеть, как 20 000 человек делают вид, что знали эту группу раньше, снимая вертикальные видео, которые они никогда не посмотрят»

Пример получившегося ролика: https://t.me/Veo3clips/11

Смотреть ролик

Как вы можете видеть, при правильном запросе и всей необходимой информации, Veo 3 может заполнить диалог за вас.

Правильное произношение

Иногда модель может делать неправильный ударения в словах. Самый простой способ справиться с этим — написать слова фонетически. Например "ко́шка".

Кто и что говорит

Когда вы формируете запрос с несколькими персонажами, иногда Veo 3 путает, кто что говорит. Чаще, когда персонажи имеют схожие описания, и Veo 3 не может понять, кто есть кто.

Старайтесь быть конкретным в своем запросе и уточняйте описание персонажа, который говорит:

Пример запроса: "Женщина в розовом говорит: Я та, кто носит розовое."
"Мужчина в очках отвечает: А я тот, кто в очках."

Избегание субтитров

Veo 3 обучался на множестве видео с встраиваемыми субтитрами, поэтому их очень часто можно увидеть плохо написанными и неправильными в роликах. Решение: просто допиши в запросе "(без субтитров)"

6. Музыка. Фоновые звуки

Фоновые звуки делают кадр более живым. Без них сцена кажется плоской, а еще модель может вставлять неуместные стилистически звуки шумы. Например, если мы просим сгенерировать сцену со стендап-комиком и не прописываем стиль фоновых звуком, то можем получить неуместный смех, например как закадровый фейковый смех из старого ситкома.

Если вы хотите, чтобы в вашей сцене была музыка, вам тоже нужно включить её в запрос. Можно четко и описать жанр, стиль и настроение музыки, которую хотите услышать. Или же можете быть более гибкими и позволить Veo 3 решить за вас.

7. Стили

Базово Veo 3 дает картинку, похожую на качественно снятое видео с живыми актёрами, например, гладкую профессиональную демонстрацию, рекламу или музыкальный клип.

Если вы хотите другого, то вам стоит указать стиль в запросе. Вот несколько примеров стилистик кадра:

Teal & Orange / Киношный бирюзовый и оранжевый
Pastel muted / Пастельные приглушенные оттенки
Neon cyan-magenta / В стиле киберпанк
Black & White / Монохромный
Vintage / Винтажный
Film Look / Киношный стиль
High contrast / Высокий контраст
Retro / Ретро стиль
Desaturated / Обесцвеченный
Warm tones / Теплые оттенки
Cool tones / Холодные оттенки
Cinematic / Кинематографический

Пример обычного запроса: Бородатый мужчина во фланелевой рубашке и потёртых джинсах сидит, скрестив ноги, у мерцающего костра. Янтарный свет отбрасывает мягкие, танцующие тени на усыпанную сосновыми иголками землю тихой лесной поляны. Напротив него, сразу за краем света костра, стоит огромный медведь гризли, спокойный и неподвижный, его шерсть отражает тёплое сияние, а в глазах отражается зловещий ум. Они пожимают друг другу руки, словно старые друзья.

Пример получившегося ролика: https://t.me/Veo3clips/12

Смотреть ролик

Затем добавляем первой строкой к запросу выше "В стиле [название стиля]" и наслаждаемся результатом.

В стиле Neon cyan-magenta: https://t.me/Veo3clips/13

Смотреть ролик

В стиле Сумерки: https://t.me/Veo3clips/14

Смотреть ролик

Также вы можете регулировать глубину резкости кадра:

Shallow DoF — фон размытый, внимание на герое.
Deep focus — чётко всё: герой + задник. Полезно в документалке.
Rack focus — фокус движется с объекта А на Б. Используем, чтобы «передать» важность предмету.

7. Движение камеры

Используя эти термины, вы можете управлять движением в видео:

eye level — уровень глаз: камера расположена на уровне глаз персонажа, создавая ощущение равноправия и естественности восприятия.
high angle — высокое положение: камера находится выше объекта, смотрит вниз, что может делать персонажа или сцену менее важной или более уязвимой.
worms eye — (или "worm's eye view") — взгляд с уровня мухи: очень низкое положение камеры, смотрящей вверх, создавая эффект грандиозности или искажения.
dolly shot — дубль или кадр с тележки: камера движется вперед или назад по рельсам или специальной платформе, что позволяет плавно следовать за объектом.
zoom in/ zoom out — приближение/ отдаление масштаба изображения за счет изменения фокусного расстояния объектива, без перемещения самой камеры.
pan shot — панорамирование: вращение камеры по горизонтальной оси, позволяющее охватить широкую сцену или следить за движущимся объектом.
tracking shot — трекинг или движение камеры вслед за объектом: камера движется вместе с объектом в пространстве, например, идет за персонажем или машиной.
handheld shake — съемка с рук, при которой камера слегка трясется, создавая ощущение реалистичности или напряженности.
crane rise — подъем камеры с помощью крановой установки, позволяющий поднять камеру вверх или вниз для получения высокого или низкого ракурса.
orbit 360° — вращение камеры вокруг своей оси на 360 градусов, позволяющее показать всю окружающую среду или создать эффект полного обзора.
whip pan — быстрое панорамирование камерой, при котором изображение резко смещается влево или вправо, создавая эффект динамики или перехода между сценами.

Также вы можете указывать скорость движения камеры, например:

slow zoom in — медленное приближение
fast dolly shot — пугающий прыжок к лицу.

Пример запроса: 2 астронавта в зеркальных скафандрах лежат в середине кукурузного поля. Камера снимает сверху вниз, эффект Zoom in

Пример получившегося ролика: https://t.me/Veo3clips/15

Смотреть ролик

Пример запроса: 2 астронавта в зеркальных скафандрах лежат на спине в середине кукурузного поля. Камера снимает с эффектом fast worms eye. На фоне шелест листьев

Пример получившегося ролика: https://t.me/Veo3clips/16

Смотреть ролик