April 12

Как я отдал новостной ролик на аутсорс ИИ‑агенту Perplexity Computer  и сколько это на самом деле стоило.

Всем привет!

При переходе на тарифный план Pro мне выдали 4000 кредитов на "попробовать" Perplexity Computer. Долгое время не доходили до них руки, но на днях халявные кредиты должны были "превратиться в тыкву" и их нужно было реализовать до этого момента. И если уж тратить, то хоть с какой-то пользой. Поэтому решил проверить, способен ли Perplexity Computer самостоятельно собрать полноценный новостной ролик для Telegram, от поиска тем до финального видеофайла. Хотелось понять две вещи:

  • достаточно ли одного простого промыта;
  • насколько «человечно» это выглядит на выходе;
  • и во сколько обходится такой полностью автоматизированный продакшен;

Задание для агента

В качестве теста я выбрал довольно незамысловатое ТЗ:

«Возьми 3 самые важные AI‑новости за последние 24 часа и собери 45‑секундный вертикальный ролик для Telegram: короткий закадровый текст, русские субтитры, титульный кадр и b‑roll из официальных материалов или лицензируемых стоков. Нужны две версии — строгая новостная и чуть более энергичная для теста вовлечённости».

То есть агенту нужно было сделать следующее:

  • самостоятельно выбрать новости за сутки;
  • написать два варианта сценария (формальный и энергичный);
  • сгенерировать титульный кадр;
  • сделать несколько b‑roll клипов под каждую новость (через Veo);
  • озвучить текст на русском;
  • добавить русские субтитры(не был уверен, что он озвучит ролик на русском, тем более я явно этого не задал изначально);
  • собрать две финальных версии ролика ~45–47 секунд, вертикалка 9:16, под Telegram.

Модель — Anthropic Claude Opus. Максимально «толстый» вариант.


Как агент решал задачу (по шагам)

По логу (агент полностью комментировал все свои планируемые и фактические действия) видно, что Computer разложил задачу на вполне вменяемый пайплайн.

1. Поиск новостей

Сначала агент прошёлся по свежим источникам (Reuters, Fortune, TechCrunch, Axios и т.д.) и выбрал три топ‑сюжета по AI и безопасности:

  • уязвимость в цепочке поставок OpenAI через библиотеку Axios, затронувшая подпись macOS‑приложения;
  • Meta Muse Spark — reasoning‑модель от Meta, конкурент GPT‑5.x и Claude Opus;
  • ограничение доступа к «кибермоделям» OpenAI и Anthropic из‑за того, что они научились находить zero‑day уязвимости, доступ только через Trusted Access for Cyber / Project Glasswing.

Уже на этом этапе видно, что агент думает как редактор: не просто «что случилось», а как собрать три связных сюжета вокруг AI и безопасности.

Сценарии озвучки

Дальше — два текстовых сценария: строгий и более энергичный.
Оба на русском, под длительность ~40 секунд, с нормальной новостной подачей, без кринжа.

Результат — два файла:

  • script_formal.txt
Главные новости из мира технологий. Первая. OpenAI обнаружила серьёзную уязвимость в цепочке поставок. Атака через библиотеку Axios затронула систему подписи macOS-приложений компании. Пользовательские данные не пострадали, но всем рекомендовано обновить приложения. Вторая. Meta представила Muse Spark — свою первую модель с продвинутым мышлением. По тестам она приближается к GPT-5.4 и Claude Opus, а запущено всё командой бывшего главы Scale AI. Третья. И OpenAI, и Anthropic теперь ограничивают доступ к своим самым мощным кибермоделям. Причина — они научились самостоятельно находить уязвимости нулевого дня. Это был дайджест AI-новостей. Подписывайтесь.

  • script_energetic.txt
[excited] Три мощнейших новости из мира AI прямо сейчас! Первая — OpenAI попала под удар! Хакеры атаковали цепочку поставок через библиотеку Axios и добрались до системы подписи macOS-приложений. Данные не утекли, но это серьёзный звоночек. Вторая — Meta входит в игру! Muse Spark, первая reasoning-модель от Meta, уже дышит в затылок GPT-5.4 и Claude. Конкуренция — накаляется! И третья — OpenAI и Anthropic ОДНОВРЕМЕННО решили закрыть доступ к своим кибермоделям. Почему? Потому что эти модели сами находят уязвимости нулевого дня. Будущее наступило. Подписывайтесь, чтобы не пропустить!

Титульный кадр

Затем агент сгенерировал титульный кадр в стиле тех‑дайджеста:

Сначала он написал промпт без моего участия:
A dramatic vertical poster for a tech news digest video. Dark navy blue background with glowing cyan and electric blue data streams and circuit board patterns. In the center, three floating holographic news cards with tech icons: a shield with a warning sign, a brain chip, and a lock symbol. Cinematic lighting with blue rim light and subtle lens flares. Modern futuristic tech aesthetic, clean minimalist design, photorealistic 3D render with volumetric lighting, deep teal and electric blue color palette
  • вертикальный постер;
  • тёмно‑синий фон, неоновые потоки данных;
  • три «карты новостей» с иконками: щит, мозг‑чип, замок.
  • отправил на генерацию

По сути это готовый intro‑кадр для анимированного вступления.

Озвучка (TTS)

На основе двух сценариев были собраны два аудиофайла:

  • script_formal.mp3 (~41 сек)
  • script_energetic.mp3 (~41 сек)
    (итоговые аудиофайлы файлы остаются за кадром, в формате телетайпа они не поддерживаются)

Озвучка — на хорошем русском, без ощутимого «робота». По подаче:

  • формальный — спокойный, новостной;
  • энергичный — чуть более динамичный, но без радиоведущего 90‑х.

Генерация b‑roll

Дальше начинается тяжёлая артиллерия: Veo.

Схема была такой:

  • Титульная анимация — 4 секунды;
  • B‑roll 1: визуализация кибератаки / взлома OpenAI (серверная, красные алерты, щит, глич‑эффекты);
  • B‑roll 2: лаборатория с «цифровым мозгом» Meta Muse Spark;
  • B‑roll 3: массивная цифровая дверь/хранилище, которое закрывается — визуальная метафора ограниченного доступа к кибермоделям;

Сначала агент генерирует ключевые изображения (keyframes), затем по ним — короткие клипы в Veo 3.1 Fast.

Итого после первого прохода получилось около 28 секунд видео:

  • 4 с титульная анимация;
  • по 8 с на три b‑roll сцены;

Мало. Поэтому…

Удлинение клипов

Чтобы выйти на ~45 секунд, агент делает ещё один трюк: «фрейм чейнинг».

  • Берёт последний кадр каждого клипа;
  • Генерирует продолжение сцены (камера продолжает движение, меняется состояние — у OpenAI алерты постепенно стабилизируются, у мозга включаются графики, у хранилища показывается целый коридор закрывающихся дверей);
  • Сшивает первоначальные и продолженные клипы.

В результате общий хронометраж b‑roll вырастает до ~52 секунд «чистого» видео, из которых потом нарезается нужная длина под озвучку.

Сборка, субтитры и финальные ролики

Финальный этап — максимально инженерный:

  • нормализация всех клипов до одного разрешения и fps (720×1280, 24 fps);
  • конкатенация клипов в один таймлайн (~52 секунды);
  • наложение озвучки;
  • генерация субтитров (SRT) с таймкодами слов;
  • смещение субтитров и звука на 4 секунды, чтобы они начинались после титульного кадра (через adelay и правку SRT);
  • прожиг субтитров в видео.

На выходе — два файла:

  • final_formal.mp4
  • final_energetic.mp4

Оба:

  • ~47 секунд(каждый);
  • вертикальный 9:16 (720×1280);
  • H.264 + AAC;
  • с русской озвучкой и русскими субтитрами.

То есть это реально готовые ролики «залей и публикуй».


Сколько это стоило

Теперь к самому интересному — экономике.

  • На задачу ушло 1513 кредитов.
  • 1000 кредитов стоят $10.(такая цена установлена в системе, если есть желание докупить. Правда, обещают, что в дальнейшем какое-то количество кредитов будет включено в месячный план. Но сколько именно их будут выдавать на Pro подписке я в документации не нашел)
  • То есть этот один комплексный эксперимент потянул примерно на $15 поверх месячной подписки Pro.

С учётом того, что сама подписка стоит сопоставимых денег, получается забавная картина:

Один «премиум‑ролик» с полным автопайплайном ≈ месяц использования Pro.

И это без учёта времени на формулировку задания и разбор результата — чисто машинные вычисления.


Из плюсов

  1. Качество русского языка
    И сценарий, и озвучка, и субтитры — на хорошем русском. Можно было ожидать англоязычную базу + перевод, но тут агент спокойно держит русскоязычный контекст от начала до конца, не считая некоторых технических моментов.
  2. Редакторская логика
    Агент не просто «взял три новости», а связал их общей темой (AI + безопасность), подобрал визуальные метафоры и выдержал новостной стиль подачи.
  3. Инженерная аккуратность
    Нормализация роликов, таймкоды, сдвиг субтитров, работа с длительностью, это тот скучный слой, который руками обычно делать лень.
  4. Полный лог работы
    Весь пайплайн шаг за шагом можно сохранить в Markdown (что я и сделал) и дальше использовать как «рецепт» для своих сценариев.
    Лог задачи — отличный конструктор. Из него можно:
      • вытащить шаблон промпта для титульных кадров;
      • шаблон промпта для b‑roll на разные типы новостей;
      • пример структуры Python‑скрипта для сборки.

"Подводные камни"

  1. Цена такого удобства
    1500+ кредитов за эксперимент — это дорого, если думать о регулярном продакшене новостей. Такой формат не полетит как «каждый день делаем так ролики».
  2. Чёрный ящик стоимости
    Пока не проведёшь такой эксперимент, сложно интуитивно оценить, сколько именно шагов «съедают» кредиты: поиск, картинки, Veo, TTS, скрипты, ffmpeg и т.д. Теперь — понятнее.

Такие агенты — это не «замена монтажёра на каждый день», а инструмент для редких «премиум‑выпусков» и прототипирования форматов(я сейчас исключительно o тарифе PRO).

А фактически уже сейчас возможно реализовать подобную задачу на автомате от начала и до конца. Вопрос исключительно в окупаемости затрат, а техническую часть можно докрутить по своему усмотрению.

Как это вообще устроено

  • Ты описываешь желаемый результат в одном промпте — хоть «сделай новостной Telegram‑ролик по трём Apple‑новостям», хоть «спланируй поездку в Японию и сделай PDF с маршрутом».
  • Computer воспринимает это как уникальную задачу, сам разбивает её на подзадачи и уже под них автоматически подбирает подходящие навыки (skills) и модели.
  • Внутри у него действительно есть набор встроенных скиллов (research, презентации, код, файлы, и т.п.), плюс те кастомные skills(я их не использовал), которые ты сам создашь на вкладке Skills — но нет жёсткого ограничения «только такие-то типы задач».

Вмешиваться можно на двух уровнях

  1. На уровне самой задачи — просто формулируя её так, как тебе нужно (и дописывая уточнения по ходу: «не используй анимацию», «делай два варианта ролика» и т.д.).
  2. На уровне скиллов — ты можешь создать свои собственные Skills с детальными инструкциями, и тогда Computer будет подхватывать их как «строительные блоки» внутри сложных задач.

Skills в Perplexity Computer. ничем не отличаются от подобных в Claude Code, откуда они, собственно, и пришли. Это такие «плейбуки», которые учат агента выполнять конкретный тип задач по вашим правилам, например, собирать новости в жёстком формате или собирать ролики для по заданному регламенту. По умолчанию Computer сам планирует шаги и вызывает нужные скиллы за кулисами, а я вижу этот процесс только в логах — как наблюдатель. Но если встроенных навыков не хватает, можно добавить свои: описать, когда их использовать, и расписать пошаговый регламент в файле SKILL.md. Дальше эти кастомные скиллы начинают автоматически подхватываться в новых задачах, как если бы у вас появился ещё один «штатный» ассистент, натасканный именно под ваш формат. Так же можно добавить другие необходимые файлы, изображения или конвекторы.

Это не полноценный обзор, а скорее поверхностное знакомство с потенциальными возможностями. Получилось довольно сумбурно, наверняка я что-то упустил, где-то не разобрался или неверно понял. Но "полночь" уже близко и "карета" вот вот превратятся в "тыкву". Нужно было поторапливаться.

Всем удачи!

Ваш AppleScroll

P.S. Итоговые ролики я закину в телеграмм канал следом за этим постом.