Контент-завод. Часть 3: как анализировать, генерировать и публиковать ролики

Вертикальные видео залетают не случайно.

Да, со стороны может казаться, что человек снял короткий ролик, выложил его в Shorts, Reels или TikTok, и алгоритм внезапно решил: «Вот это покажем всем», но если смотреть внимательнее, у платформ есть набор сигналов, по которым они понимают, стоит ли дальше разгонять ролик.

И вот с этого лучше начинать. Не с нейросетей, не с Veo, не с n8n, не с промптов, а с вопроса:

что платформа считает хорошим видео?

Потому что если мы не понимаем, на что смотрит рекомендательная система, то контент-завод превращается в генератор случайных роликов. Иногда что-то получится. Чаще — нет.

Почему короткие видео так хорошо цепляют

У вертикальных видео есть важная психологическая особенность: они дают человеку быстрый выброс дофамина.

Человек открывает ленту, смотрит ролик 15–60 секунд, получает маленькую эмоцию, инсайт, удивление, раздражение, смех, узнавание — и сразу листает дальше.

В этом и сила формата.

Короткий ролик не требует большого решения. Человеку не нужно выделять полчаса, садиться, включаться в тему. Он скользит по ленте, а платформа подсовывает ему всё новые и новые микродозы интереса.

Отсюда первая важная вещь — хук.

Хук — это первые секунды ролика. Крючок. То, что должно остановить палец зрителя.

Это может быть вопрос:

«Знаете ли вы, почему ваши Shorts не набирают просмотры?»

Может быть провокация:

«Если бы мне сказали это раньше, я бы сэкономил полгода работы».

Может быть обещание:

«В конце покажу, как собрать такую контент-фабрику без монтажёра».

Первые 2–5 секунд решают очень многое. Человек либо остаётся, либо уходит дальше. И если он уходит сразу, платформа получает понятный сигнал: ролик не удержал внимание.

Поэтому хуки можно и нужно анализировать отдельно. Берёте пачку роликов, которые залетели, вытаскиваете первые 3–5 секунд и смотрите:

какой заход использован;
есть ли конфликт;
есть ли вопрос;
есть ли обещание;
есть ли визуальный удар;
есть ли интрига;
соответствует ли начало основной части ролика.

Так постепенно собирается библиотека рабочих заходов.

На что смотрят платформы

Если сильно упростить, TikTok, Instagram Reels и YouTube Shorts смотрят на похожие вещи.

Главный сигнал — удержание, то есть сколько времени человек смотрел ролик. Досмотрел ли до конца. Пересмотрел ли. На каком месте ушёл.

Если ролик короткий и человек посмотрел его полностью, это уже хороший знак. Если он посмотрел его два раза — ещё сильнее (поэтому многие делают видео до 5 секунд, чтобы искусственно повышать досматриваемость). Если он после этого поставил лайк, написал комментарий или отправил кому-то — сигнал становится ещё мощнее.

Платформы учитывают (самое важное):

процент просмотра — какую часть ролика человек посмотрел;
досмотр до конца — дошёл ли зритель до финала;
повторный просмотр — запустил ли ролик ещё раз;

Именно поэтому в коротких видео часто используют фразы вроде:

«В конце покажу главное».
«Досмотри до конца, там будет пример».
«Последний пункт самый важный».

Иногда это выглядит грубо, но механика понятна: автор пытается дотянуть зрителя до финала, потому что досмотр — один из самых сильных сигналов для рекомендаций.

TikTok, Instagram и YouTube: логика похожа, но нюансы разные

У TikTok всё построено вокруг быстрого теста контента. Ролик показывается небольшой аудитории, платформа смотрит на реакции, дальше либо расширяет показ, либо останавливает.

Instagram Reels тоже сильно завязан на удержание и вовлечение, но у него заметнее роль визуального качества: оформление, разрешение, звук, эстетика, использование трендовой музыки.

Музыка, кстати, важна. Особенно в TikTok и Reels. Иногда аудио само по себе становится частью распространения ролика.

С YouTube интереснее.

YouTube исторически был платформой длинных видео. Потом туда добавились Shorts. Поэтому система рекомендаций у него сложнее: он учитывает и длинные ролики, и короткие, и историю канала, и доверие к каналу, и поведение зрителя в разных форматах.

Я не буду делать вид, что знаю внутренние веса YouTube. Это знают инженеры YouTube. Но общий принцип понятен:

удержание, досмотр, взаимодействия, история канала, релевантность контента.

Если канал долго публикует однотипный низкокачественный или спамный контент, можно попасть в ограничения. Иногда это называют shadow ban. Формально платформы не всегда признают такие механики именно в таком виде, но на практике авторы часто видят ситуацию: ролики выходят, но почти никому не показываются.

Должен ли хук совпадать с основным видео

Есть частый вопрос: нормально ли, когда хук не совсем соответствует ролику?

Например, начало обещает одно, а дальше идёт другой контент.

Жёсткого ответа здесь нет, но логика такая: если хук совсем оторван от основной части, зритель чувствует обман. Он уходит, дизлайкает, пишет негативный комментарий или больше не взаимодействует с каналом.

Для YouTube это может быть особенно чувствительно, потому что он смотрит на связку:

название;
описание;
теги;
тему канала;
содержание видео;
поведение зрителей.

важно помнить, что оформление длинных и коротких видео различается

Если начало ролика обещает одно, а содержание уводит в другую сторону, это может ударить по удержанию и доверию к каналу.

Поэтому лучше делать хук острым, но релевантным. Крючок должен цеплять, а не обманывать.

Почему нельзя собрать один контент-завод на всё

Здесь важный момент.

Контент-заводы бывают разные. Нельзя собрать одну универсальную систему, которая будет одинаково хорошо делать всё: мемы, экспертные ролики, AI-видео, нарезки интервью, карточки товаров, субтитры, музыкальные клипы, Shorts с аватаром и кинематографичные сцены.

Технически можно засунуть много веток в один огромный воркфлоу, но по логике это будут разные заводы.

Один завод может быть заточен под генерацию вертикальных видео из текста.

Другой — под анализ конкурентов.

Третий — под нарезку длинных видео.

Четвёртый — под генерацию картинок, которые потом превращаются в видео.

Пятый — под создание видео с озвучкой и субтитрами.

И вот когда мы говорим про ИИ для вертикальных видео, сначала надо понять: какой именно тип контента мы хотим производить регулярно.

Какие бывают типы генерации видео

Есть несколько базовых подходов.

Text-to-video

Мы пишем текстовый промпт, а модель генерирует видео.

Например:

A cinematic shot of a couple running on the beach during sunset. Soft golden light, handheld camera, realistic motion.

Модель на основе описания создаёт видео. Это самый понятный формат: написал сцену — получил ролик.

Image-to-video

Мы даём модели картинку, а она оживляет её.

Этот подход часто удобнее, потому что сначала можно сгенерировать статичный кадр, проверить композицию, персонажа, стиль, свет, а потом уже превращать его в видео.

Например, можно сделать 5 ключевых кадров для 5 сцен, а потом каждую картинку отдельно оживить.

Так появляется больше контроля. Видео не рождается полностью случайно. У нас есть опорные кадры.

Video-to-video

Мы даём исходное видео и просим модель изменить его.

Например, взять движение человека из одного ролика и перенести на другой визуальный стиль. Или заменить внешний вид, сохранив динамику.

Иногда это называют animate-to-animate: мы используем движение из одного видео и натягиваем на него новую картинку или стиль.

Speech-to-video

Модель получает голос или текст речи и генерирует видео под него.

Это полезно, когда надо сделать говорящего персонажа, аватара или сцену, где движение синхронизировано с речью.

Липсинк

Отдельная задача — синхронизация губ с голосом.

Не все платформы поддерживают это одинаково хорошо, поэтому иногда приходится собирать цепочку из нескольких сервисов: отдельно персонаж, отдельно голос, отдельно липсинк.

Платформы и агрегаторы моделей

Есть платформы, где собрано много моделей в одном месте. Это удобно, потому что не нужно отдельно регистрироваться в каждом сервисе и разбираться с каждой документацией с нуля.

Например, можно использовать агрегаторы вроде Kie AI или Replicate или Weawy.

Там могут быть разные модели: Veo, Sora, Flux, Kling, Wan и другие. Удобство в том, что у вас есть единый API, единый кабинет, единая логика ключей и запросов.

Для контент-завода это важно.

Когда вы делаете один ролик руками, можно зайти в интерфейс, вставить промпт, подождать, скачать файл.

Когда вы делаете десятки или сотни роликов, ручной режим начинает мешать. Нужен API: система сама отправляет запросы, ждёт результат, забирает ссылку на видео и передаёт дальше по цепочке.

Как выглядит базовый воркфлоу генерации видео на примере Kie.ai

если вам нужен файл этого воркфлоу напишите мне в телеграмме...сюда пока не прикрепляется файл

Самая базовая схема выглядит так:

У нас есть промпт.
Мы отправляем его в модель через HTTP-запрос.
Модель возвращает ID задачи.
Мы периодически проверяем статус задачи.
Когда видео готово, забираем ссылку на файл.
Передаём видео дальше: в таблицу, монтаж, публикацию или следующий этап обработки.

В n8n это обычно собирается через HTTP Request-ноды.

У большинства видео-моделей генерация не возвращается мгновенно. Сначала создаётся задача. Потом нужно дождаться, пока модель её обработает.

Поэтому в воркфлоу появляется маленькая техническая петля:

создали задачу → подождали → проверили статус → если не готово, подождали ещё → если готово, забрали результат.

Это несложная логика, но её важно понимать. Почти все видео-API работают похожим образом.

Меняться будут:

название модели;
адрес endpoint;
структура input;
параметры генерации;
формат ответа.

Поэтому при смене модели всегда нужно смотреть документацию. Нельзя взять параметры от одной модели и ожидать, что другая примет их без изменений.

Почему промпты для видео отличаются от текстовых промптов

Видео-промпт — это не разговор с чат-ботом.

Не нужно писать:

«Can you please make me a beautiful video...»

Модели лучше работают, когда промпт описывает сцену конкретно.

Что происходит в кадре.
Кто находится в кадре.
Как двигается камера.
Какой свет.
Какая композиция.
Какой стиль.
Какое настроение.
Какой ракурс.
Что должно быть в начале и в конце.

По сути, промпт для видео ближе к режиссёрскому описанию.

Например:

Two friends sitting at a small kitchen table, eating chocolate cake, laughing naturally. Warm morning light from the window, handheld camera, medium close-up, realistic documentary style.

Хороший видео-промпт отвечает на вопрос: что модель должна показать на экране?

А плохой промпт оставляет слишком много пустоты. И модель начинает додумывать сама.

Как собирать промпт для видео по конструктору

Один из удобных подходов — собирать промпт как конструктор.

У нас есть постоянный скелет:

тип сцены;
герой;
действие;
локация;
камера;
свет;
стиль;
темп;
текст на экране;
ограничения;
технические параметры.

А дальше меняются переменные.

Например:

[герой] делает [действие] в [локация]. Камера: [ракурс]. Свет: [описание]. Стиль: [референс]. На экране текст: [caption].

Такой подход особенно полезен, когда нужно генерировать много роликов одного формата. Мы не пишем каждый промпт с нуля, а подставляем разные данные в одну структуру.

Для карточек товаров это может быть один шаблон.
Для Shorts с экспертными советами — другой.
Для чёрно-белых AI-роликов с текстом — третий.
Для кинематографичных сцен — четвёртый.

Как использовать рекомендации Google и Runway

У крупных платформ есть свои гайды по промптингу для видео. Их можно использовать как основу для системной инструкции агента.

Логика такая:

Берём рекомендации по промптингу от нескольких платформ.
Копируем ключевые правила.
Просим модель сделать из них сжатую инструкцию.
Оставляем примеры хороших промптов.
Вставляем эту инструкцию в system message агента-сценариста.

Тогда агент не каждый раз «думает с нуля», как писать видео-промпт. У него есть постоянная инструкция: как описывать сцену, как задавать ракурс, как избегать отрицаний, как писать конкретно.

В system message лучше хранить стабильные правила.
В user message — динамические данные: тему, формат, цель, референс, текст, ограничения.

Так результат становится управляемее.

этот воркфлоу можно запросить в телеграм канале, для изучения и тестирования. Генератор коротких видеороликов на базе искусственного интеллекта с использованием OpenAI, Flux, Kling и ElevenLabs

Генерация голоса через ElevenLabs

Для озвучки удобно использовать ElevenLabs.

В n8n это можно делать через кастомную ноду. Если ноды нет, её можно установить через community nodes.

Дальше логика простая:

Создаём API-ключ в ElevenLabs.
Подключаем его в n8n.
Выбираем метод text-to-speech.
Выбираем голос.
Передаём текст.
Получаем аудиофайл.

Это хороший блок для фабрики, где видео и голос генерируются отдельно.

Например:

сначала агент пишет сценарий;
потом ElevenLabs озвучивает текст;
потом видео-модель генерирует визуальные сцены;
потом всё склеивается;
потом добавляются субтитры.

Если используется Veo 3 или другая модель, которая сразу генерирует видео со звуком, отдельная озвучка может быть не нужна, но для более управляемого продакшена отдельный голос часто удобнее.

Как добавлять субтитры и склеивать видео

Для работы с видео очень часто используют FFmpeg.

Это технический инструмент, но мощный. Через него можно:

склеивать видео;
накладывать аудио;
извлекать аудиодорожку;
добавлять субтитры;
менять формат;
обрезать ролики;
накладывать изображения;
готовить финальный mp4.

С FFmpeg есть нюанс: если n8n стоит в облаке, FFmpeg может быть недоступен. Если n8n развёрнут на своём сервере, FFmpeg нужно установить отдельно.

Через FFmpeg можно добавлять субтитры в двух вариантах.

Первый вариант — «вшитые» субтитры. Они всегда видны в видео.

Второй вариант — отдельная дорожка субтитров, которую пользователь может включить или выключить.

Для автоматизации часто используют SRT-файл. В нём указано, в какой момент какой текст появляется на экране.

Пример логики:

с 00:00 до 00:02 — первая фраза;
с 00:02 до 00:05 — вторая фраза;
с 00:05 до 00:08 — третья фраза.

Если мы сами генерируем сценарий и озвучку, нам не всегда нужно распознавать речь заново. Мы уже знаем, какой текст должен звучать в конкретной сцене. Значит, можем заранее подготовить субтитры.

Это сильно упрощает пайплайн.

Как вытаскивать текст из чужих видео

Для трендвочинга часто нужно анализировать чужие ролики.

Можно отправить в модель всё видео, но это дороже и тяжелее. Часто разумнее сделать так:

Скачать или получить видео.
Через FFmpeg вытащить аудиодорожку.
Отправить аудио в Whisper или другой сервис транскрибации.
Получить текст.
Проанализировать текст: хук, структуру, CTA, обещание, тему, формулировки.

Так можно быстро анализировать пачки роликов конкурентов.

Например, нас интересуют хуки. Мы берём 50 роликов, вытаскиваем первые секунды речи, складываем в таблицу и смотрим, какие заходы встречаются чаще всего у роликов с высоким охватом.

CapCut ручная сборка

Не всё обязательно автоматизировать до конца.

Иногда нормальный рабочий вариант — сгенерировать ассеты автоматически, а финальную сборку сделать руками в CapCut.

CapCut удобен тем, что в нём быстро разбираются даже те, кто не является профессиональным монтажёром.

Там можно:

собрать видео;
добавить текст;
добавить музыку;
сделать обложку;
выбрать кадр для превью;
быстро поправить визуал.

Для фабрики это может быть промежуточный режим: система генерирует видео, голос, картинки, субтитры, а человек собирает финальную версию руками.

На старте такой подход часто надёжнее, чем пытаться сразу автоматизировать всё до последнего клика.

Remotion: видео через код

Есть ещё один интересный подход — генерировать видео через код.

Например, с помощью Remotion можно создавать настоящие mp4-файлы на базе React-компонентов.

Это особенно полезно для форматов, где много повторяемой графики:

интро;
анимации текста;
инфографика;
карточки;
объясняющие ролики;
шаблонные вертикальные видео.

Плюс в том, что такой формат хорошо подходит для вайб-кодинга. Можно описать, что должно происходить, а дальше собрать кодовую систему, которая будет подставлять разные тексты, изображения, цифры и сцены.

Это уже ближе к инженерному продакшену: видео становится не файлом, который собирается вручную, а результатом работы программы.

Как публиковать видео на разные платформы

Когда видео готово, его нужно куда-то отправить.

Можно делать это руками: скачать mp4, открыть YouTube, TikTok, Instagram, загрузить, прописать описание, теги, обложку, но если роликов много, это быстро становится узким местом.

Есть сервисы, которые позволяют публиковать контент сразу в разные каналы: YouTube, TikTok, Instagram, Facebook, LinkedIn и так далее.

В контент-заводе публикация — это отдельный блок. Не менее важный, чем генерация, потому что видео, которое осталось лежать в папке, не даёт результата.

Сервисы, которые мы используем:

Главная логика контент-завода: сначала анализ, потом генерация

Самая важная мысль по заводу такая:

нельзя сразу генерировать видео без понимания, что именно нужно генерировать.

Контент-завод должен состоять из двух больших частей.

Первая часть — аналитическая.

этот воркфлоу можно запросить в телеграм канале, для изучения и тестирования.

Мы собираем данные:

какие ролики залетели;
какие темы повторяются;
какие хуки используются;
какая длина роликов;
какие подписи;
какие визуальные приёмы;
какой звук;
какие CTA;
какие комментарии;
какие показатели вовлечения.

Вторая часть — производственная.

Мы берём выбранные идеи и запускаем генерацию:

сценарий;
промпты для сцен;
картинки;
видео;
голос;
субтитры;
монтаж;
обложка;
описание;
публикация.

Если перепутать порядок, фабрика будет производить много контента, но качество решений останется слабым.

Как анализировать тренды и конкурентов

Для сбора данных можно использовать Apify или похожие инструменты.

Например, мы задаём ключевые слова:

healthy food;
meal prep;
high protein snack;
AI video;
content factory;
YouTube Shorts automation.

Сервис собирает ролики, метрики и дополнительные данные. Дальше всё складывается в Google Sheets.

В таблице можно хранить:

ссылку на видео;
название;
канал;
дату публикации;
количество просмотров;
лайки;
комментарии;
длительность;
текст описания;
субтитры;
теги;
первые секунды ролика;
тип хука;
визуальный формат;
наличие CTA;
готово ли брать в производство.

Дальше можно подключить агента, который проставит дополнительные признаки.

Например:

есть ли сильный хук;
есть ли зацикливание;
есть ли обещание в начале;
есть ли конфликт;
есть ли личная история;
есть ли демонстрация результата;
есть ли вопрос к аудитории;
есть ли повод для комментария;
можно ли адаптировать формат под наш проект.

Так мы получаем производственную базу.

Что такое фичи видео

В машинном обучении есть понятие feature — признак.

Для нас это означает: у каждого ролика есть набор характеристик, которые можно анализировать.

Например:

хук в первые 3 секунды;
зацикленная структура;
резкий визуальный контраст;
текст на экране;
трендовый звук;
короткая длительность;
обещание в начале;
неожиданный финал;
призыв оставить комментарий;
лицо в кадре;
крупный план;
движение камеры;
динамичный монтаж;
формат «до/после»;
формат «ошибка/решение»;
формат «топ-3»;
формат «разбор чужого примера».

Если собрать 20–30 таких признаков и разметить много роликов, начнут появляться закономерности.

Например, может оказаться, что в конкретной нише лучше всего работают ролики, где:

сильный текстовый хук в первой секунде;
есть лицо;
есть конфликт;
длина до 25 секунд;
финал зациклен с началом;
в комментариях задан простой вопрос.

И вот тогда ваш завод производит ролики по рабочим паттернам.

Обратная разборка удачных роликов

Один из самых практичных способов — брать удачный ролик конкурента и делать обратную разборку.

Загружаем ролик в модель (Gemini, особенно Gemini 3.5 Flash / Gemini 3 Pro, потому что он нативно принимает видео, умеет описывать происходящее, работать с таймкодами и вытаскивать структуру ролика), которая умеет анализировать видео, и просим:

разбери ролик по элементам;
опиши, что происходит в кадре;
выдели структуру;
опиши визуальный стиль;
опиши монтаж;
выдели текст на экране;
определи хук;
определи CTA;
напиши промпт на английском для Veo 3, чтобы получить похожий результат.

Модель раскладывает ролик на элементы, а потом собирает промпт.

Дальше этот промпт можно использовать как шаблон. Менять переменные:

тему;
текст на экране;
героя;
продукт;
сайт;
цвета;
сцену;
тональность.

Так мы не копируем ролик буквально, а вытаскиваем его механику.

Это очень рабочий подход для AI-видео.

Как должен выглядеть нормальный завод вертикального контента

Если собрать всё вместе, получается такая схема.

Сначала идёт блок анализа:

Собираем ролики конкурентов и тренды.
Достаём метрики.
Вытаскиваем текст и субтитры.
Размечаем хуки, форматы, визуальные приёмы.
Отбираем идеи для производства.
Ставим статус: for production.

Потом идёт блок генерации:

Агент берёт идею из таблицы.
Пишет сценарий.
Делит сценарий на сцены.
Для каждой сцены пишет видео-промпт.
Генерирует картинки или сразу видео.
Генерирует голос.
Готовит субтитры.
Склеивает видео.
Добавляет текст, музыку, обложку.
Передаёт ролик на публикацию или ручную проверку.

На первых этапах лучше оставить ручной контроль между аналитикой и генерацией.

То есть не давать системе автоматически производить всё подряд, а сначала руками отмечать: вот это берём, вот это не берём, вот это можно адаптировать, вот это мусор.

И тут вы уже после ручного теста можете собрать систему:

анализируем тренды;
понимаем, какие механики работают;
разбираем чужие удачные ролики;
собираем промпты по шаблонам;
генерируем видео через API;
добавляем голос и субтитры;
склеиваем всё в готовый формат;
публикуем и снова анализируем результат.

То есть замыкаем цикл.

Посмотрели, что работает → разобрали → сгенерировали свою версию → опубликовали → измерили → улучшили.

Вот это уже похоже на мини (или нет) контент-завод, а не на разовые эксперименты с нейросетями.

Вариантов и форматов как создавать контент, масса, мы здесь рассмотрели всего лишь "один из", чтобы вы базово понимали логику как все собирается. Инструменты могут быть разные, но логика фундаментальна и проста как правило.

Тестируйте. Удачи!

Проектирую и собираю контент-системы под бизнес-задачи.

YouTube • видео • медийка • AI-автоматизация

На канале: разборы, наблюдения и практика из реальных проектов.

Обсудить дела:
TG: https://t.me/safronistika
TenChat: https://tenchat.ru/antonsafronov
Вконтакте: https://vk.com/safronovantony
YouTube: https://www.youtube.com/@safronistika