Подробная инструкция по работе с Veo 3. Промты. Нюансы.
1. Сначала основы
Промпт — это ваш мини-сценарий: он содержит описание сцены, эмоций, движений и деталей. Чем подробнее и структурированнее промпт, тем лучше получится видео.
- основной текст (кто, зачем, что делает, где происходит действие, диалоги персонажей, конфликт)
- дополнительные детали, такие как эмоции голоса, звук, свет и движения камеры.
Используйте последовательность сверху вниз: сначала указывайте основные детали, затем добавляйте дополнительные технические параметры.
2. Структура
Включайте в свой запрос следующие элементы кадра:
- Субъект: Кто или что находится в кадре — человек, животное, объект или пейзаж.
- Контекст: Где находится субъект? В помещении? На городской улице? В лесу?
- Действие: Ваш субъект идет, прыгает, поворачивает голову?
- Стиль: Визуальная эстетика, к которой вы стремитесь (кинематографическая, анимационная, стоп-кадровая и т. д.).
- Движение камеры: Опишите, как движется камера: аэросъемка, уровень глаз, сверху вниз или снизу вверх.
- Композиция: Как кадрируется кадр: широкий план, крупный план и т. д.
- Атмосфера: Настроение и освещение. Вы можете задать такие вещи, как "теплые тона", "синий свет" или "ночное время".
*Также вам нужно включить аудиоэлементы, которые мы рассмотрим подробнее ниже.
3. Важность запроса.
Хорошо составленный запрос — ключ к созданию хороших видео. Чем более подробно вы сформируете запросе, тем лучше VEO 3 поймет и генерирует видео. Давайте сравним 2 запроса: простой запрос без уточнения деталей, который мы оставляем на произвол судьбы и подробный, в котором содержатся те самые структурные элементы, о которых мы писали выше.
Простой запрос: "Мужчина отвечает на ротационный телефон."
Подробный запрос: "Трепещущий зум: начинается с размытого изображения человека в поношенном зелёном плаще, отвечающего на ротационный телефон на грязной кирпичной стене, освещённой неоновым светом. Зум приближается к лицу, показывая напряжение и отчаяние. Фон размытый с неоновыми цветами и тенями, создавая ощущение срочности и изоляции."
4. Согласованность персонажа
Для того, чтобы картинка получалась целостной и герои сквозь разные кадры выглядели одинаково, рекомендуем заранее сформулировать подробное описание персонажа, которое можно повторять дословно при других запросах.
Также можно заранее подготовить фото-референс или удовлетворительный стоп-кадр готового героя и воспользоваться качественной генерацией “Текст + фото” в нашем боте. Лучше попросить ChatGPT описать ваш фото-референс текстовым промтом и использовать этот промт дальше при генерации видео в Veo 3. Чем более уникальными и специфичными будут эти описания, тем лучше Veo 3 будет поддерживать визуальное постоянство между отдельно сгенерированными сценами.
Давайте посмотрим на примере, как работает согласованность описания персонажа в 2 отдельных запросах:
Пример запроса: Михаил, мужчина лет 40 с короткими каштановыми волосами, в синей куртке и очках, задумчиво говорит: «Здравствуйте, я персонаж, специально придуманный для этого гайда(без субтитров!)». Он находится в ярко освещенной комнате.
Пример запроса 2: Михаил, мужчина лет 40 с короткими каштановыми волосами, в синей куртке и очках, задумчиво говорит: «Здравствуйте, тоже Михаил, и я выгляжу примерно так же, как тот парень (без субтитров!)». Он находится в ярко освещенной комнате.
5. Аудио. Диалоги
Поскольку Veo 3 генерирует аудио к каждому видео, нам необходимо задавать и эти параметры. Рассмотрим, какие могут быть аудио-элементы:
1. Что говорят люди (диалог)
2. Фоновый шум сцены (звуки оживленной улицы, офиса, кафе и т.д.)
3. Звуковые эффекты или шумы извне (например, звонок телефона)
4. Любая музыка, которая может понадобиться сцене (напряженный кинематографический саундтрек, веселая поп-песня и т.д.).
Прописывание диалога и как избежать субтитров
Вы можете задать диалог двумя способами:
1. Правильно: "Парень говорит: Меня зовут Михаил"
2. Неправильно: "Парень говорит свое имя"
Хотя оба варианта приведут к видео с говорящим парнем; только первый использует точные слова из запроса, а второй позволит модели самой решить, что сказать и как его зовут.
- Старайтесь делать диалог коротким. Это должно быть что-то, что можно сказать примерно за 8 секунд.
- Если вы пытаетесь вместить слишком много, то можете получить персонажа, который говорит слишком быстро. И наоборот, если вы просите их сказать слишком мало, это может привести к неловким паузам или персонаж заговорит бессмысленный AI-бред (как во втором примере ниже). Без четких указаний модель не сможет придумать подходящие слова.
Прописывание диалога и как избежать субтитров
Сейчас попросим Veo 3 создать видео с комиком, который рассказывает шутку. Сперва мы даем Veo 3 решить, какую шутку рассказать. А во втором видео мы просим Veo 3 рассказать шутку, которую мы предложили.
Пример запроса 1: Стендап-комик рассказывает неловкую шутку на музыкальном фестивале, звуки групп людей вдалеке, шумная толпа, фон оживлённой фестивальной площадки
Пример запроса 2: Стендап-комик рассказывает неловкую шутку на музыкальном фестивале: «Знаете, что замечательно в музыкальных фестивалях? Видеть, как 20 000 человек делают вид, что знали эту группу раньше, снимая вертикальные видео, которые они никогда не посмотрят»
Смотреть ролик
Как вы можете видеть, при правильном запросе и всей необходимой информации, Veo 3 может заполнить диалог за вас.
Иногда модель может делать неправильный ударения в словах. Самый простой способ справиться с этим — написать слова фонетически. Например "ко́шка".
Когда вы формируете запрос с несколькими персонажами, иногда Veo 3 путает, кто что говорит. Чаще, когда персонажи имеют схожие описания, и Veo 3 не может понять, кто есть кто.
Старайтесь быть конкретным в своем запросе и уточняйте описание персонажа, который говорит:
Пример запроса: "Женщина в розовом говорит: Я та, кто носит розовое."
"Мужчина в очках отвечает: А я тот, кто в очках."
Veo 3 обучался на множестве видео с встраиваемыми субтитрами, поэтому их очень часто можно увидеть плохо написанными и неправильными в роликах. Решение: просто допиши в запросе "(без субтитров)"
6. Музыка. Фоновые звуки
Фоновые звуки делают кадр более живым. Без них сцена кажется плоской, а еще модель может вставлять неуместные стилистически звуки шумы. Например, если мы просим сгенерировать сцену со стендап-комиком и не прописываем стиль фоновых звуком, то можем получить неуместный смех, например как закадровый фейковый смех из старого ситкома.
Если вы хотите, чтобы в вашей сцене была музыка, вам тоже нужно включить её в запрос. Можно четко и описать жанр, стиль и настроение музыки, которую хотите услышать. Или же можете быть более гибкими и позволить Veo 3 решить за вас.
7. Стили
Базово Veo 3 дает картинку, похожую на качественно снятое видео с живыми актёрами, например, гладкую профессиональную демонстрацию, рекламу или музыкальный клип.
Если вы хотите другого, то вам стоит указать стиль в запросе. Вот несколько примеров стилистик кадра:
- Teal & Orange / Киношный бирюзовый и оранжевый
- Pastel muted / Пастельные приглушенные оттенки
- Neon cyan-magenta / В стиле киберпанк
- Black & White / Монохромный
- Vintage / Винтажный
- Film Look / Киношный стиль
- High contrast / Высокий контраст
- Retro / Ретро стиль
- Desaturated / Обесцвеченный
- Warm tones / Теплые оттенки
- Cool tones / Холодные оттенки
- Cinematic / Кинематографический
Пример обычного запроса: Бородатый мужчина во фланелевой рубашке и потёртых джинсах сидит, скрестив ноги, у мерцающего костра. Янтарный свет отбрасывает мягкие, танцующие тени на усыпанную сосновыми иголками землю тихой лесной поляны. Напротив него, сразу за краем света костра, стоит огромный медведь гризли, спокойный и неподвижный, его шерсть отражает тёплое сияние, а в глазах отражается зловещий ум. Они пожимают друг другу руки, словно старые друзья.
Затем добавляем первой строкой к запросу выше "В стиле [название стиля]" и наслаждаемся результатом.
Также вы можете регулировать глубину резкости кадра:
- Shallow DoF — фон размытый, внимание на герое.
- Deep focus — чётко всё: герой + задник. Полезно в документалке.
- Rack focus — фокус движется с объекта А на Б. Используем, чтобы «передать» важность предмету.
7. Движение камеры
Используя эти термины, вы можете управлять движением в видео:
- eye level — уровень глаз: камера расположена на уровне глаз персонажа, создавая ощущение равноправия и естественности восприятия.
- high angle — высокое положение: камера находится выше объекта, смотрит вниз, что может делать персонажа или сцену менее важной или более уязвимой.
- worms eye — (или "worm's eye view") — взгляд с уровня мухи: очень низкое положение камеры, смотрящей вверх, создавая эффект грандиозности или искажения.
- dolly shot — дубль или кадр с тележки: камера движется вперед или назад по рельсам или специальной платформе, что позволяет плавно следовать за объектом.
- zoom in/ zoom out — приближение/ отдаление масштаба изображения за счет изменения фокусного расстояния объектива, без перемещения самой камеры.
- pan shot — панорамирование: вращение камеры по горизонтальной оси, позволяющее охватить широкую сцену или следить за движущимся объектом.
- tracking shot — трекинг или движение камеры вслед за объектом: камера движется вместе с объектом в пространстве, например, идет за персонажем или машиной.
- handheld shake — съемка с рук, при которой камера слегка трясется, создавая ощущение реалистичности или напряженности.
- crane rise — подъем камеры с помощью крановой установки, позволяющий поднять камеру вверх или вниз для получения высокого или низкого ракурса.
- orbit 360° — вращение камеры вокруг своей оси на 360 градусов, позволяющее показать всю окружающую среду или создать эффект полного обзора.
- whip pan — быстрое панорамирование камерой, при котором изображение резко смещается влево или вправо, создавая эффект динамики или перехода между сценами.
Также вы можете указывать скорость движения камеры, например:
Пример запроса: 2 астронавта в зеркальных скафандрах лежат в середине кукурузного поля. Камера снимает сверху вниз, эффект Zoom in
Пример запроса: 2 астронавта в зеркальных скафандрах лежат на спине в середине кукурузного поля. Камера снимает с эффектом fast worms eye. На фоне шелест листьев