Контент-завод. Часть 3: как анализировать, генерировать и публиковать ролики
Вертикальные видео залетают не случайно.
Да, со стороны может казаться, что человек снял короткий ролик, выложил его в Shorts, Reels или TikTok, и алгоритм внезапно решил: «Вот это покажем всем», но если смотреть внимательнее, у платформ есть набор сигналов, по которым они понимают, стоит ли дальше разгонять ролик.
И вот с этого лучше начинать. Не с нейросетей, не с Veo, не с n8n, не с промптов, а с вопроса:
что платформа считает хорошим видео?
Потому что если мы не понимаем, на что смотрит рекомендательная система, то контент-завод превращается в генератор случайных роликов. Иногда что-то получится. Чаще — нет.
Почему короткие видео так хорошо цепляют
У вертикальных видео есть важная психологическая особенность: они дают человеку быстрый выброс дофамина.
Человек открывает ленту, смотрит ролик 15–60 секунд, получает маленькую эмоцию, инсайт, удивление, раздражение, смех, узнавание — и сразу листает дальше.
Короткий ролик не требует большого решения. Человеку не нужно выделять полчаса, садиться, включаться в тему. Он скользит по ленте, а платформа подсовывает ему всё новые и новые микродозы интереса.
Отсюда первая важная вещь — хук.
Хук — это первые секунды ролика. Крючок. То, что должно остановить палец зрителя.
«Знаете ли вы, почему ваши Shorts не набирают просмотры?»
«Если бы мне сказали это раньше, я бы сэкономил полгода работы».
«В конце покажу, как собрать такую контент-фабрику без монтажёра».
Первые 2–5 секунд решают очень многое. Человек либо остаётся, либо уходит дальше. И если он уходит сразу, платформа получает понятный сигнал: ролик не удержал внимание.
Поэтому хуки можно и нужно анализировать отдельно. Берёте пачку роликов, которые залетели, вытаскиваете первые 3–5 секунд и смотрите:
- какой заход использован;
- есть ли конфликт;
- есть ли вопрос;
- есть ли обещание;
- есть ли визуальный удар;
- есть ли интрига;
- соответствует ли начало основной части ролика.
Так постепенно собирается библиотека рабочих заходов.
На что смотрят платформы
Если сильно упростить, TikTok, Instagram Reels и YouTube Shorts смотрят на похожие вещи.
Главный сигнал — удержание, то есть сколько времени человек смотрел ролик. Досмотрел ли до конца. Пересмотрел ли. На каком месте ушёл.
Если ролик короткий и человек посмотрел его полностью, это уже хороший знак. Если он посмотрел его два раза — ещё сильнее (поэтому многие делают видео до 5 секунд, чтобы искусственно повышать досматриваемость). Если он после этого поставил лайк, написал комментарий или отправил кому-то — сигнал становится ещё мощнее.
Платформы учитывают (самое важное):
- процент просмотра — какую часть ролика человек посмотрел;
- досмотр до конца — дошёл ли зритель до финала;
- повторный просмотр — запустил ли ролик ещё раз;
Именно поэтому в коротких видео часто используют фразы вроде:
«В конце покажу главное».
«Досмотри до конца, там будет пример».
«Последний пункт самый важный».
Иногда это выглядит грубо, но механика понятна: автор пытается дотянуть зрителя до финала, потому что досмотр — один из самых сильных сигналов для рекомендаций.
TikTok, Instagram и YouTube: логика похожа, но нюансы разные
У TikTok всё построено вокруг быстрого теста контента. Ролик показывается небольшой аудитории, платформа смотрит на реакции, дальше либо расширяет показ, либо останавливает.
Instagram Reels тоже сильно завязан на удержание и вовлечение, но у него заметнее роль визуального качества: оформление, разрешение, звук, эстетика, использование трендовой музыки.
Музыка, кстати, важна. Особенно в TikTok и Reels. Иногда аудио само по себе становится частью распространения ролика.
YouTube исторически был платформой длинных видео. Потом туда добавились Shorts. Поэтому система рекомендаций у него сложнее: он учитывает и длинные ролики, и короткие, и историю канала, и доверие к каналу, и поведение зрителя в разных форматах.
Я не буду делать вид, что знаю внутренние веса YouTube. Это знают инженеры YouTube. Но общий принцип понятен:
удержание, досмотр, взаимодействия, история канала, релевантность контента.
Если канал долго публикует однотипный низкокачественный или спамный контент, можно попасть в ограничения. Иногда это называют shadow ban. Формально платформы не всегда признают такие механики именно в таком виде, но на практике авторы часто видят ситуацию: ролики выходят, но почти никому не показываются.
Должен ли хук совпадать с основным видео
Есть частый вопрос: нормально ли, когда хук не совсем соответствует ролику?
Например, начало обещает одно, а дальше идёт другой контент.
Жёсткого ответа здесь нет, но логика такая: если хук совсем оторван от основной части, зритель чувствует обман. Он уходит, дизлайкает, пишет негативный комментарий или больше не взаимодействует с каналом.
Для YouTube это может быть особенно чувствительно, потому что он смотрит на связку:
важно помнить, что оформление длинных и коротких видео различается
Если начало ролика обещает одно, а содержание уводит в другую сторону, это может ударить по удержанию и доверию к каналу.
Поэтому лучше делать хук острым, но релевантным. Крючок должен цеплять, а не обманывать.
Почему нельзя собрать один контент-завод на всё
Контент-заводы бывают разные. Нельзя собрать одну универсальную систему, которая будет одинаково хорошо делать всё: мемы, экспертные ролики, AI-видео, нарезки интервью, карточки товаров, субтитры, музыкальные клипы, Shorts с аватаром и кинематографичные сцены.
Технически можно засунуть много веток в один огромный воркфлоу, но по логике это будут разные заводы.
Один завод может быть заточен под генерацию вертикальных видео из текста.
Другой — под анализ конкурентов.
Третий — под нарезку длинных видео.
Четвёртый — под генерацию картинок, которые потом превращаются в видео.
Пятый — под создание видео с озвучкой и субтитрами.
И вот когда мы говорим про ИИ для вертикальных видео, сначала надо понять: какой именно тип контента мы хотим производить регулярно.
Какие бывают типы генерации видео
Есть несколько базовых подходов.
Text-to-video
Мы пишем текстовый промпт, а модель генерирует видео.
A cinematic shot of a couple running on the beach during sunset. Soft golden light, handheld camera, realistic motion.
Модель на основе описания создаёт видео. Это самый понятный формат: написал сцену — получил ролик.
Image-to-video
Мы даём модели картинку, а она оживляет её.
Этот подход часто удобнее, потому что сначала можно сгенерировать статичный кадр, проверить композицию, персонажа, стиль, свет, а потом уже превращать его в видео.
Например, можно сделать 5 ключевых кадров для 5 сцен, а потом каждую картинку отдельно оживить.
Так появляется больше контроля. Видео не рождается полностью случайно. У нас есть опорные кадры.
Video-to-video
Мы даём исходное видео и просим модель изменить его.
Например, взять движение человека из одного ролика и перенести на другой визуальный стиль. Или заменить внешний вид, сохранив динамику.
Иногда это называют animate-to-animate: мы используем движение из одного видео и натягиваем на него новую картинку или стиль.
Speech-to-video
Модель получает голос или текст речи и генерирует видео под него.
Это полезно, когда надо сделать говорящего персонажа, аватара или сцену, где движение синхронизировано с речью.
Липсинк
Отдельная задача — синхронизация губ с голосом.
Не все платформы поддерживают это одинаково хорошо, поэтому иногда приходится собирать цепочку из нескольких сервисов: отдельно персонаж, отдельно голос, отдельно липсинк.
Платформы и агрегаторы моделей
Есть платформы, где собрано много моделей в одном месте. Это удобно, потому что не нужно отдельно регистрироваться в каждом сервисе и разбираться с каждой документацией с нуля.
Например, можно использовать агрегаторы вроде Kie AI или Replicate или Weawy.
Там могут быть разные модели: Veo, Sora, Flux, Kling, Wan и другие. Удобство в том, что у вас есть единый API, единый кабинет, единая логика ключей и запросов.
Когда вы делаете один ролик руками, можно зайти в интерфейс, вставить промпт, подождать, скачать файл.
Когда вы делаете десятки или сотни роликов, ручной режим начинает мешать. Нужен API: система сама отправляет запросы, ждёт результат, забирает ссылку на видео и передаёт дальше по цепочке.
Как выглядит базовый воркфлоу генерации видео на примере Kie.ai
Самая базовая схема выглядит так:
- У нас есть промпт.
- Мы отправляем его в модель через HTTP-запрос.
- Модель возвращает ID задачи.
- Мы периодически проверяем статус задачи.
- Когда видео готово, забираем ссылку на файл.
- Передаём видео дальше: в таблицу, монтаж, публикацию или следующий этап обработки.
В n8n это обычно собирается через HTTP Request-ноды.
У большинства видео-моделей генерация не возвращается мгновенно. Сначала создаётся задача. Потом нужно дождаться, пока модель её обработает.
Поэтому в воркфлоу появляется маленькая техническая петля:
создали задачу → подождали → проверили статус → если не готово, подождали ещё → если готово, забрали результат.
Это несложная логика, но её важно понимать. Почти все видео-API работают похожим образом.
Поэтому при смене модели всегда нужно смотреть документацию. Нельзя взять параметры от одной модели и ожидать, что другая примет их без изменений.
Почему промпты для видео отличаются от текстовых промптов
Видео-промпт — это не разговор с чат-ботом.
«Can you please make me a beautiful video...»
Модели лучше работают, когда промпт описывает сцену конкретно.
- Что происходит в кадре.
- Кто находится в кадре.
- Как двигается камера.
- Какой свет.
- Какая композиция.
- Какой стиль.
- Какое настроение.
- Какой ракурс.
- Что должно быть в начале и в конце.
По сути, промпт для видео ближе к режиссёрскому описанию.
Two friends sitting at a small kitchen table, eating chocolate cake, laughing naturally. Warm morning light from the window, handheld camera, medium close-up, realistic documentary style.
Хороший видео-промпт отвечает на вопрос: что модель должна показать на экране?
А плохой промпт оставляет слишком много пустоты. И модель начинает додумывать сама.
Как собирать промпт для видео по конструктору
Один из удобных подходов — собирать промпт как конструктор.
- тип сцены;
- герой;
- действие;
- локация;
- камера;
- свет;
- стиль;
- темп;
- текст на экране;
- ограничения;
- технические параметры.
[герой] делает [действие] в [локация]. Камера: [ракурс]. Свет: [описание]. Стиль: [референс]. На экране текст: [caption].
Такой подход особенно полезен, когда нужно генерировать много роликов одного формата. Мы не пишем каждый промпт с нуля, а подставляем разные данные в одну структуру.
Для карточек товаров это может быть один шаблон.
Для Shorts с экспертными советами — другой.
Для чёрно-белых AI-роликов с текстом — третий.
Для кинематографичных сцен — четвёртый.
Как использовать рекомендации Google и Runway
У крупных платформ есть свои гайды по промптингу для видео. Их можно использовать как основу для системной инструкции агента.
- Берём рекомендации по промптингу от нескольких платформ.
- Копируем ключевые правила.
- Просим модель сделать из них сжатую инструкцию.
- Оставляем примеры хороших промптов.
- Вставляем эту инструкцию в system message агента-сценариста.
Тогда агент не каждый раз «думает с нуля», как писать видео-промпт. У него есть постоянная инструкция: как описывать сцену, как задавать ракурс, как избегать отрицаний, как писать конкретно.
В system message лучше хранить стабильные правила.
В user message — динамические данные: тему, формат, цель, референс, текст, ограничения.
Так результат становится управляемее.
Генерация голоса через ElevenLabs
Для озвучки удобно использовать ElevenLabs.
В n8n это можно делать через кастомную ноду. Если ноды нет, её можно установить через community nodes.
- Создаём API-ключ в ElevenLabs.
- Подключаем его в n8n.
- Выбираем метод text-to-speech.
- Выбираем голос.
- Передаём текст.
- Получаем аудиофайл.
Это хороший блок для фабрики, где видео и голос генерируются отдельно.
- сначала агент пишет сценарий;
- потом ElevenLabs озвучивает текст;
- потом видео-модель генерирует визуальные сцены;
- потом всё склеивается;
- потом добавляются субтитры.
Если используется Veo 3 или другая модель, которая сразу генерирует видео со звуком, отдельная озвучка может быть не нужна, но для более управляемого продакшена отдельный голос часто удобнее.
Как добавлять субтитры и склеивать видео
Для работы с видео очень часто используют FFmpeg.
Это технический инструмент, но мощный. Через него можно:
- склеивать видео;
- накладывать аудио;
- извлекать аудиодорожку;
- добавлять субтитры;
- менять формат;
- обрезать ролики;
- накладывать изображения;
- готовить финальный mp4.
С FFmpeg есть нюанс: если n8n стоит в облаке, FFmpeg может быть недоступен. Если n8n развёрнут на своём сервере, FFmpeg нужно установить отдельно.
Через FFmpeg можно добавлять субтитры в двух вариантах.
Первый вариант — «вшитые» субтитры. Они всегда видны в видео.
Второй вариант — отдельная дорожка субтитров, которую пользователь может включить или выключить.
Для автоматизации часто используют SRT-файл. В нём указано, в какой момент какой текст появляется на экране.
с 00:00 до 00:02 — первая фраза;
с 00:02 до 00:05 — вторая фраза;
с 00:05 до 00:08 — третья фраза.
Если мы сами генерируем сценарий и озвучку, нам не всегда нужно распознавать речь заново. Мы уже знаем, какой текст должен звучать в конкретной сцене. Значит, можем заранее подготовить субтитры.
Как вытаскивать текст из чужих видео
Для трендвочинга часто нужно анализировать чужие ролики.
Можно отправить в модель всё видео, но это дороже и тяжелее. Часто разумнее сделать так:
- Скачать или получить видео.
- Через FFmpeg вытащить аудиодорожку.
- Отправить аудио в Whisper или другой сервис транскрибации.
- Получить текст.
- Проанализировать текст: хук, структуру, CTA, обещание, тему, формулировки.
Так можно быстро анализировать пачки роликов конкурентов.
Например, нас интересуют хуки. Мы берём 50 роликов, вытаскиваем первые секунды речи, складываем в таблицу и смотрим, какие заходы встречаются чаще всего у роликов с высоким охватом.
CapCut ручная сборка
Не всё обязательно автоматизировать до конца.
Иногда нормальный рабочий вариант — сгенерировать ассеты автоматически, а финальную сборку сделать руками в CapCut.
CapCut удобен тем, что в нём быстро разбираются даже те, кто не является профессиональным монтажёром.
- собрать видео;
- добавить текст;
- добавить музыку;
- сделать обложку;
- выбрать кадр для превью;
- быстро поправить визуал.
Для фабрики это может быть промежуточный режим: система генерирует видео, голос, картинки, субтитры, а человек собирает финальную версию руками.
На старте такой подход часто надёжнее, чем пытаться сразу автоматизировать всё до последнего клика.
Remotion: видео через код
Есть ещё один интересный подход — генерировать видео через код.
Например, с помощью Remotion можно создавать настоящие mp4-файлы на базе React-компонентов.
Это особенно полезно для форматов, где много повторяемой графики:
Плюс в том, что такой формат хорошо подходит для вайб-кодинга. Можно описать, что должно происходить, а дальше собрать кодовую систему, которая будет подставлять разные тексты, изображения, цифры и сцены.
Это уже ближе к инженерному продакшену: видео становится не файлом, который собирается вручную, а результатом работы программы.
Как публиковать видео на разные платформы
Когда видео готово, его нужно куда-то отправить.
Можно делать это руками: скачать mp4, открыть YouTube, TikTok, Instagram, загрузить, прописать описание, теги, обложку, но если роликов много, это быстро становится узким местом.
Есть сервисы, которые позволяют публиковать контент сразу в разные каналы: YouTube, TikTok, Instagram, Facebook, LinkedIn и так далее.
В контент-заводе публикация — это отдельный блок. Не менее важный, чем генерация, потому что видео, которое осталось лежать в папке, не даёт результата.
Сервисы, которые мы используем:
Главная логика контент-завода: сначала анализ, потом генерация
Самая важная мысль по заводу такая:
нельзя сразу генерировать видео без понимания, что именно нужно генерировать.
Контент-завод должен состоять из двух больших частей.
Первая часть — аналитическая.
- какие ролики залетели;
- какие темы повторяются;
- какие хуки используются;
- какая длина роликов;
- какие подписи;
- какие визуальные приёмы;
- какой звук;
- какие CTA;
- какие комментарии;
- какие показатели вовлечения.
Вторая часть — производственная.
Мы берём выбранные идеи и запускаем генерацию:
Если перепутать порядок, фабрика будет производить много контента, но качество решений останется слабым.
Как анализировать тренды и конкурентов
Для сбора данных можно использовать Apify или похожие инструменты.
Например, мы задаём ключевые слова:
Сервис собирает ролики, метрики и дополнительные данные. Дальше всё складывается в Google Sheets.
- ссылку на видео;
- название;
- канал;
- дату публикации;
- количество просмотров;
- лайки;
- комментарии;
- длительность;
- текст описания;
- субтитры;
- теги;
- первые секунды ролика;
- тип хука;
- визуальный формат;
- наличие CTA;
- готово ли брать в производство.
Дальше можно подключить агента, который проставит дополнительные признаки.
- есть ли сильный хук;
- есть ли зацикливание;
- есть ли обещание в начале;
- есть ли конфликт;
- есть ли личная история;
- есть ли демонстрация результата;
- есть ли вопрос к аудитории;
- есть ли повод для комментария;
- можно ли адаптировать формат под наш проект.
Так мы получаем производственную базу.
Что такое фичи видео
В машинном обучении есть понятие feature — признак.
Для нас это означает: у каждого ролика есть набор характеристик, которые можно анализировать.
- хук в первые 3 секунды;
- зацикленная структура;
- резкий визуальный контраст;
- текст на экране;
- трендовый звук;
- короткая длительность;
- обещание в начале;
- неожиданный финал;
- призыв оставить комментарий;
- лицо в кадре;
- крупный план;
- движение камеры;
- динамичный монтаж;
- формат «до/после»;
- формат «ошибка/решение»;
- формат «топ-3»;
- формат «разбор чужого примера».
Если собрать 20–30 таких признаков и разметить много роликов, начнут появляться закономерности.
Например, может оказаться, что в конкретной нише лучше всего работают ролики, где:
- сильный текстовый хук в первой секунде;
- есть лицо;
- есть конфликт;
- длина до 25 секунд;
- финал зациклен с началом;
- в комментариях задан простой вопрос.
И вот тогда ваш завод производит ролики по рабочим паттернам.
Обратная разборка удачных роликов
Один из самых практичных способов — брать удачный ролик конкурента и делать обратную разборку.
Загружаем ролик в модель (Gemini, особенно Gemini 3.5 Flash / Gemini 3 Pro, потому что он нативно принимает видео, умеет описывать происходящее, работать с таймкодами и вытаскивать структуру ролика), которая умеет анализировать видео, и просим:
- разбери ролик по элементам;
- опиши, что происходит в кадре;
- выдели структуру;
- опиши визуальный стиль;
- опиши монтаж;
- выдели текст на экране;
- определи хук;
- определи CTA;
- напиши промпт на английском для Veo 3, чтобы получить похожий результат.
Модель раскладывает ролик на элементы, а потом собирает промпт.
Дальше этот промпт можно использовать как шаблон. Менять переменные:
Так мы не копируем ролик буквально, а вытаскиваем его механику.
Это очень рабочий подход для AI-видео.
Как должен выглядеть нормальный завод вертикального контента
Если собрать всё вместе, получается такая схема.
Сначала идёт блок анализа:
- Собираем ролики конкурентов и тренды.
- Достаём метрики.
- Вытаскиваем текст и субтитры.
- Размечаем хуки, форматы, визуальные приёмы.
- Отбираем идеи для производства.
- Ставим статус: for production.
Потом идёт блок генерации:
- Агент берёт идею из таблицы.
- Пишет сценарий.
- Делит сценарий на сцены.
- Для каждой сцены пишет видео-промпт.
- Генерирует картинки или сразу видео.
- Генерирует голос.
- Готовит субтитры.
- Склеивает видео.
- Добавляет текст, музыку, обложку.
- Передаёт ролик на публикацию или ручную проверку.
На первых этапах лучше оставить ручной контроль между аналитикой и генерацией.
То есть не давать системе автоматически производить всё подряд, а сначала руками отмечать: вот это берём, вот это не берём, вот это можно адаптировать, вот это мусор.
И тут вы уже после ручного теста можете собрать систему:
- анализируем тренды;
- понимаем, какие механики работают;
- разбираем чужие удачные ролики;
- собираем промпты по шаблонам;
- генерируем видео через API;
- добавляем голос и субтитры;
- склеиваем всё в готовый формат;
- публикуем и снова анализируем результат.
Посмотрели, что работает → разобрали → сгенерировали свою версию → опубликовали → измерили → улучшили.
Вот это уже похоже на мини (или нет) контент-завод, а не на разовые эксперименты с нейросетями.
Вариантов и форматов как создавать контент, масса, мы здесь рассмотрели всего лишь "один из", чтобы вы базово понимали логику как все собирается. Инструменты могут быть разные, но логика фундаментальна и проста как правило.
Проектирую и собираю контент-системы под бизнес-задачи.
YouTube • видео • медийка • AI-автоматизация
На канале: разборы, наблюдения и практика из реальных проектов.
Обсудить дела:
TG: https://t.me/safronistika
TenChat: https://tenchat.ru/antonsafronov
Вконтакте: https://vk.com/safronovantony
YouTube: https://www.youtube.com/@safronistika