September 17

Алгоритмы Reels

Мне поднадоело, что все говорят об алгоритмах Reels, как про “казино”, типа да хер его знает, повезло – залетело, не повезло – увы. И советы уровня: выкладывай больше, там рулетка, по теории вероятности больше шансов – мне тоже не нравились.

Если честно, я и сам ориентировался с трудом. Да, понятно, важно удержание внимания (глубина просмотра), да, какую-то роль играет вовлечение: лайки / шеры и тд. Но это всё на таком уровне, как если бы врачи говорили: еда попадает в рот, а в животе превращается в го*но. То есть, вроде бы логично, но не исчерпывающе.

И я пошел искать какие-то трастовые источники. Много юзал perplexity (для любых исследований рекомендую каждому, работает лучше, чем GPT, не фантазирует и сразу находит ссылки на первоисточники), читал документацию Instagram, переводил контент из блогов сотрудников Meta. Потом нашел готовый ресерч, который собрал Олег Лупиков, и это во многом упростило задачу.

Спустя 2 недели задротства, собрал для вас выжимку того, как на самом деле работают алгоритмы вертикальных видео Instagram.

Лонгрид не простой, это не чтиво под пивко, лучше собраться и даже конспектировать. Возможно, встретите новые термины, я старался максимально упрощать и давать сноски, но если всё равно будет не ясно, не поленитесь погуглить новые слова, главное, чтобы вы поняли смысл.

Короче присаживайтесь, все расскажу!

Сначала разберемся:

Что там вообще происходит с видео после его загрузки.

Когда вы загружаете видео, контент переводится в векторное представление. Ролик раскладывается на сотни признаков: длительность, динамика, цвет, объекты, лица, музыка, отдельные звуки, текст, даже шрифт текста. То есть если в кадре есть жопа кота, Instagram конкретно понимает, что на изображении жопа кота, просто она шифруется для обработки ML-моделями.

Например:

— CV-модели распознают, кто и что в кадре: люди, предметы, сцены, эмоции

— Аудио-модели слушают музыку, речь, даже выделяют трендовые звуки

— OCR-система Rosetta читает текст прямо из видео, фиксирует совпадение текста и контекста того, что происходит в кадре.

В итоге, у каждого ролика появляется гигантская карта параметров, цифровое описание того, что именно в нем.

Рейтинг автора. Эту штуку сначала придумали в Китайском правительстве (с рейтингом граждан, потом внедрил Китайский TikTok, а уже потом Instagram) Здесь сет отдельных ML-систем скорит автора: частота публикаций, насколько его контент удерживает аудиторию, были ли страйки за нарушение правил. Если успешная серия — новому контенту дается буст, если контент слабый — алгоритм порежет охваты. Работает оно в виде условных «баллов».

Предсказание успеха. Дальше вступают в игру сотни Ванга-ML-моделей, которые смотрят ролик и делают ставку, будет ли он интересен. Причем они предсказывают не абстрактно «людям понравится», а конкретно — вот это видео досмотрят 67% зрителей, а вот тут будут перематывать, а в этом моменте будут тыкать лайк.

Почему ML это знает? Потому что так и работает машинное обучение! Да и не машинное. Условные прогнозы погоды, движения курса акций, выздоровление больного (короче любой предсказательный прогноз – это анализ факторов)

Ни у кого же не вызывает сомнений, что с анализом факторов машина справляется лучше человека? Если и ты, каким-то чудом соберешь датасет из миллиарда единиц контента с детальной картой параметров (предположим, что ты все их разложишь перед собой, как селедку на газетке) и взвесишь, то тоже сможешь строить такие прогнозы.

Если хотите построить собственный контент-завод и в больших объемах выпускать много потенциально виральных роликов, оставляйте заявку на contentzavod.pro

Как видео попадает именно к тебе в ленту.

– Retrieval — отбор кандидатов. Когда ты открываешь Reels, система показывает не случайные видео.

– У тебя есть вектор интересов — цифровое описание твоего поведения. Пример: «смотрю до конца ролики про Москву, пересматриваю мемы про дерущихся негров, быстро скипаю мемы про бывшую или советские анекдоты».

– У каждого ролика тоже есть набор векторов, например «спорт + быстрый монтаж + текст в начале + мужской голос».

Эта точка описывается числовым вектором.

Наример:

Пользователь: [0.72 (спорт), 0.65 (технологии), 0.12 (коты), 0.88 (юмор)…]

Видео: [0.70 (спорт), 0.02 (танцы), 0.69 (технологии), 0.10 (коты), 0.85 (юмор)…]

Вы помните, что у каждого ролика извлекаются сотни признаков:

Визуальные: лица, объекты, сцены, цветовая палитра, эмоции, темп.

Аудио: музыка, речь, настроение, громкость, трендовость

Текст: субтитры, надписи, совпадение текста и картинки

Метаданные: длительность, формат, язык, устройство загрузки.

Вектор пользователя строится из его поведения: какие ролики досматривает, где ставит лайки, какие темы комментирует. И самое главное вектор динамический: каждый скип, лайк или досмотр мгновенно чуть меняет профиль.

Алгоритм ищет совпадения. Если векторы похожи, значит вероятность, что человек залипнет на рилсе, выше. Вот и мэтч. Из миллионов роликов остается несколько тысяч кандидатов, которые по мнению отдельной ML-ки могут зайти лично тебе.

Ranking – первое ранжирование. Теперь эти тысячи кандидатов оценивают сотни ML-моделей. Их задача — предсказать поведение на каждом ролике: досмотрит до конца, пересмотрит, лайкнет, напишет комментарий, сделает репост, подпишется на автора.

Помните, в фильме “Первому игроку приготовиться” были такие “шестерки”, которые вручную делали механические обезьяньи задачи. Когда у тебя бесконечное количество аналитического ресурса, ты можешь просчитать и спрогнозировать почти всё.

Дальше из этих вероятностей собирают общий скор — по сути, ожидаемую ценность показа:

Score = w₁·P_watchthrough + w₂·P_rewatch + w₃·P_follow + w₄·P_share + w₅·P_comment + w₆·P_like

Условно: прогноз на досмотры, пересмотры, подписки после просмотра, репосты, комменты, лайки.

У каждого действия свой удельный вес. Подписка после просмотра и пересмотр — самые сильные сигналы, лайк — минимальный.

Ну это как пацаны оценивают женщин по внешности: грудь, попа, лицо, фигура, волосы, смех, запах – каждый параметр имеет свой удельный вес для принятия решения о знакомстве.

Так прогнозируется поведение юзера под конкретным роликом.

Теперь вступают дополнительные правила:

– разнообразие (чтобы тебе не показывали 10 одинаковых мемов подряд),

– свежесть (новый рилс может получить буст к охватам),

– рейтинг автора (стабильные авторы с высокой вовлеченностью получают буст),

– ограничения по безопасности и политике (например, за логотип TikTok охваты снижаются)

Видео могут чуть подвинуть вверх или вниз, даже если у них одинаковый базовый скор.

– Предсказание не равно истина. Поэтому каждое новое видео сначала показывают маленькой тестовой аудитории.

– Смотрят retention: досмотрели до конца, есть ли пересмотры

– Проверяют реакции: комменты, репосты, подписки

– Если показатели выше среднего то видео масштабируют

Поэтому

– видео будет популярным, если его прогноз по сильным действиям (пересмотры, подписки) высокий;

– у зрителя в ленте всегда именно то, на чем он с большей вероятностью задержится

Алгоритм Threads работает несколько иначе:

  • там нет секунд просмотра ветки,
  • пользовательский сценарий чтения поста и комментариев отличается от скроллинга видео,
  • сам интерфейс статистики сильно беднее,

Но мы уже сейчас во многом понимаем, как устроен алгоритм и какие контент-стратегии помогают выжимать охваты из Threads. В этом коротком видео, я даю базу по тому, что делать, чтобы продавать свои продукты через треды.

Если вдруг вы перешли из ВК и у вас не грузит YouTube, то можете посмотреть ролик в VK Video.

Как заставить алгоритм поверить, что твой рилс будут смотреть. Рекомендации для создания вирального контента.

Первая задача – пройти фильтр этапа Retrieval

Миссия retrieval: из миллионов роликов быстро выбрать несколько тысяч похожих на твои вкусы по эмбеддингам (векторным представлениям). Если алгоритм не распознал тему/жанр — ролик даже не попадет в кандидаты.

Что происходит на этом этапе? CV-модели считывают лица/объекты/сцены/движение. Чем понятнее сигналы жанра, тем выше уверенность классификации. Аудио-модели слушают голос/музыку/ритм, из этого строится аудио-вектор.

OCR читает текст в кадре и сопоставляет его с визуалом/аудио. Совпадение усиливает понимание темы, рассинхрон — снижает.

Итог: вектор видео должен совпасть с вектором пользователя. Нечитаемый жанр = видео пролетает мимо нужной аудитории

Что делать? Дай алгоритмам понять, о чем видео. В первые 3–5 сек покажи лицо/ключевой объект/контекст жанра. Дай короткую фразу голосом и короткую фразу на экране про тему ролика, совпадающие по смыслу. Поставь характерную музыку: алгоритм уже знает, что грустная песня про любовь не будет в видео про ремонт квартир.

Визуальное разнообразие. Модели видят динамику кадров и понятные объекты. Статичная картинка = риск раннего дропа.

Что происходит на этом этапе? CV извлекает движение и смену сцен. Единообразие = низкая информативность по кадрам = зритель быстрее устает = early drop = падает досмотр. Разные планы увеличивают сигнал жанра, улучшают retrieval-мэтч и держат внимание = растет досмотр/повторный просмотр

Что делать? Смена плана каждые 2–4 сек. На биты/смысловые точки — визуализация (скрин/графика/руки/объект/whatever что совпадает по смыслу). Не скрывай лицо и ключевой объект (алгоритм любит узнаваемые признаки). Избегай водяных знаков, мутной или шумной картинки – алгоритм не сможет распознать объекты и у твоего видео будет меньше смысловых признаков

Субтитры не для красоты, а для алгоритма распознавания текста

Ошибка: микроскопические или нечитаемые шрифты, абстрактные фразы, рассинхрон с речью/смыслом/визуалом

Что происходит на этом этапе? OCR модель читает текст и сопоставляет его с кадром, речью. Читабельный, синхронный текст усиливает понимание темы = выше шанс попасть в правильные кластеры пользователей. Перегруз/рассинхрон > когнитивный шум > ранние скипы = падает досмотр

Что делать? Одно предложение = 1–2 сек на экране (не 20 слов да секунду). Контраст текста с фоном; безопасные зоны (не перекрывай лицо). Смысл совпадает с речью

Звук решает не меньше картинки

Что происходит на этом этапе? Аудио-модель делает эмбеддинг жанра/настроения: это юмор? История? Лайфхак? Распознавание текста + речи = семантический матч: что ты говоришь и что показываешь, то есть о чем это видео? Плохой голос = менее точное распознавание = хуже мэтч = ниже шанс попасть в нужный кластер.

Что делать? Голос громче музыки; шумоподавление. Трендовый трек ок, но озвучка голосом = алгоритм думает, что на вас подпишутся (личный авторский сигнал). Речь должна быть четкой и внятной: облегчай алгоритмам работу по распознаванию того, что ты говоришь. Быстрая речь > медленная речь, но так, чтобы если человек зажал x2 на экране, речь все еще была понятной (иначе человек скипнет видео, алгоритм думает об этом заранее)

Алгоритмы не оценивают красоту. Они считают вероятность сильных действий на базе параметров видео и поведения пользователя и уже знают, как ведут себя зрители, в которых ты целишься.

Задача спроектировать ролик так, чтобы эти вероятности были максимальными еще до первых 100 показов.

Вес действий или что является самым сильным для алгоритмов Instagram?

ML Ranking предсказывает вероятности действий на основании исторических данных и собирает общий скор рилса. Сильные действия тянут наверх, остальные почти не влияют.

Вес действий выглядит примерно так: Подписка примерно равна пересмотру и > репоста к себе или в директ, которые > комментария, который > лайка.

Надеюсь, ни для кого не секрет, что лайки это последняя метрика для оценки успешности рилса? (Люди порой лайкают даже то, что им не нравится, чтобы не обидеть друга, который им скинул их в директ. Делаете так?)

Почему подписка и пересмотр такие сильные – потому что алгоритм считает, что если человек посмотрел рилс 2+ раза, значит контент ценный прямо сейчас.

(Поэтому работают форматы рилсов, в котором 5 секунд короткого видео, триггерный заголовок и байт на прочтение текста в описании. Пока юзер читает длинный текст, видео крутится по кругу, это сигнал для алгоритма)

Сохранение по мнению Instagram – то, что пригодится в будущем. (Хотя по моим наблюдениям мы все сохраняем то, к чему потом не возвращаемся) Но для алгоритма – это всё равно сильные действия.

Задача спроектировать ролик под сильные действия. Например, для роста подписок упор на серийность контента (часть 1/3, завтра продолжение, и тд). Поэтому так хорошо работают сериалы, как “Я та девушка, которая влюбилась в дворника и это 26-я серия”. Для роста пересмотров петля/пасхалки (а вот тут я рассказывал про то-то), чек-лист, который заставит пересматривать и выписывать что-то из описания.

Виральность начинается со следующих цифр на первых 500–1500 показах (смотреть через аналитику в Edits):

– досмотр (15–25 с ролики имеют бОльшую досматриваемость): 60–70%+

– повторный просмотр: 10–20%+

– в подписку: 0.3–0.8%+

– комментарии: 1–2%+

– поделиться: 2–4%+

– Правило 3 секунд, влияние хука и early drop

Ранний дроп (когда ролик пропускают) — самый токсичный сигнал для P_watchthrough (показателя досматриваемости видео). Если 20–30% скипают рилс в первые 0-3 сек, модель начинает понижать скор ролика.

Ориентироваться надо на дроп на 0–3 сек меньше 20%. Если больше — переписываем хук.

Перезаливы и diversity (разнообразие)

Часто вижу запрос на консультациях, как кто-то хочет загружать один и тот же ролик по 100 раз. Ибо порой действительно один и тот же ролик, выложенный в разное время набирает 100 и 100.000 просмотров.

Здесь скажу так: если стрелять по воробьям из пушки, и предположить, что у вас очень много пушек, то одного вы точно прибьете. Короче, это не здоровая стратегия и вот почему.

Финальный re-ranking слой алгоритма следит за diversity. Дубликаты и однотипные рилсы конкурируют между собой — покажут 1-2, остальные получат нулевой скор и не попадут в ленту. Перезаливы понижают авторский скор, что влияет на каждый последующий рилс.

Не перезаливай. Делай варианты: другой хук, разный тайминг ключевых моментов, разный порядок фактов, разный визуал помогает использовать алгоритм diversity в своих интересах.

Но даже когда вы тестируете с хуками и темами, очень важно тестировать гипотезы. Условно, у вас должен быть ответ на вопрос: а почему вы так сделали? (что бы что? каким параметром вы хотели так управлять?)

Если хотите построить собственный контент-завод и в больших объемах выпускать много потенциально виральных роликов, оставляйте заявку на contentzavod.pro

– Integrity, brand-safety и как не словить теневой бан

Как такового, «shadow ban» не существует. Но над ранжированием стоит слой интегрити и политики бренд-сейф. Рилс с триггерами получают меньше показов, даже при нормальном ретеншене.

Интегрити-алгоритм триггерится на следующие темы:

– откровенный адалт/18+ подтекст

– обещания гарантированно заработать

– открытая агрессия/хейт спич/оскорбления

– использование чужих рилс с водяными знаками

– кликбейты, вводящий в заблуждение контент

Если все же хочется говорить про эти темы, меняйте формулировки. Кстати, на маты при этом алгоритм никак не реагирует, если это не какой-то хейт спич (и люди не тыкают пожаловаться). Поэтому контент Наташи Анарбаевой, который изобилует матами, как песни “Красной плесени”, прекрасно себе вирусится.

Тестовые показы и пробный режим

Когда ты заливаешь рилс, он не сразу падает в ленту ко всем, а попадает в песочницу. Алгоритм берет малую аудиторию, обычно от 100 до 500 человек, точная цифра динамически меняется. Цель — проверить, совпадают ли реальные метрики с прогнозом ML.

Есть Trial Mode, когда ролик публикуется не в ленту, а внешней аудитории (не-подписчики). Отличие для алгоритмов в том, что в пробном режиме сигналы идут только от действий внешней группы и не влияют на скор автора. Поэтому сюда можно заливать сотни и тысячи роликов в промышленных масштабах, не переживая за то, что это понизит рейтинг блога.

Если загружать прямо в аккаунт минуя пробный режим, рилс сразу получает свои 100–500 показов, но результаты влияют на твой author score. И если несколько подряд роликов проваливают retention, то профиль получает минус (у профиля автора есть мультипликаторы).

Как использовать эти знания?

Выбрать формат, в котором вы можете производить много потенциально вирального контента на больших объемах и не выгорать.

Надеюсь, из этой статьи вам уже стало ясно, что конкурируете вы не столько с живыми людьми, сколько с самим алгоритмом и единственный способ “договориться с ним” – это производить контент также с помощью машинного обучения.

Тестировать много гипотез: темы, хуки, приемы монтажа и аналитика эффективности того, что вы создали.

Для этого мы построили систему контент-завода, которая позволяет анализировать ролики конкурентов из других стран, выбирать самые сильные темы, адаптировать, генерировать Ai видео с аватарами, короткие видео на 5с и длинным текстом в описании, автоматизировать создание каруселей и ряд других форматов.

Всё это происходит с участием людей: машинные тексты пока имеют плохое удержание, поэтому люди в команде всё же нужны. Но если раньше мини команда делала по 30 роликов в месяц, то сейчас эта же команда может генерировать 3000 роликов в месяц.

Если хотите узнать подробности, оставляйте заявку на contentzavod.pro