Интуиция — не метрика: как мы ушли от хаоса к цифрам в A/B‑тестах

В арбитраже без тестирования не обходится ни одна команда. Проверяют все: прелендинги, лендинги, офферы — десятки гипотез одновременно. Обычно процесс выглядит так: запускается сплит, льется трафик, и, в какой-то момент, становится заметно, что один вариант показывает лучшие метрики.

Но именно здесь возникает самый рискованный момент A/B-теста: когда «победитель» выбран слишком рано. На практике нередко оказывается, что вариант, признанный успешным, работает хуже и приводит к прямым потерям — создавая иллюзию роста вместо реального результата.

Привет! Я Ян — CPO, LuckyGroup. В этой статье я расскажу о том, почему A/B-тесты могут давать «ложноположительные» результаты, как мы теряли из-за них деньги — и благодаря какому подходу нам удалось решить эту проблему.

Введение

Один из ключевых арбитражных проектов LuckyTeam — LT Monetisation — построен на системных A/B-тестах. Проект работает с нативным трафиком без клоаки и обходных методов: фокус только на росте прибыли с текущего объема.

Основная метрика — EPC. Команда добивается результата за счет точной настройки связки «креатив — лендинг — оффер»: по сути, действует как маркетинговый R&D-центр, ежедневно выдвигающий гипотезы и проверяющий способы повысить конверсию хотя бы на 1%.

Проект работает в больших объемах:

— 240 000 лидов в месяц,

— 27 гео,

— более 400 тестируемых лендингов ежемесячно.

Средний показатель win rate — около 48%, то есть, почти каждый второй тест дает улучшение.

На первый взгляд — впечатляющие цифры. Но именно в них и обнаружилась ключевая проблема.

При таком количестве «успешных» тестов рост должен был бы быть кратным — каждый месяц. Но этого не происходило.

Причина оказалась в разрыве между тестовой и реальной экономикой: вариант выигрывал внутри теста, но не приносил ожидаемой прибыли на дистанции. Этот незаметный на первый взгляд эффект стал отправной точкой для пересмотра всей системы.

Метрика выигрыша ≠ метрика роста

Разбираясь в проблеме мы задались вопросом: «Не живем ли мы в иллюзии роста от проведенных тестов?» и выяснили, что решения о победителях A/B-тестов принимались без единых правил. Каждый медиабайер определял «лучший» вариант по собственным критериям.

— В одних случаях тесты завершались после 500 кликов при заметном приросте показателей.

— В других — решение принималось только после десятков тысяч кликов, поскольку меньшая выборка считалась «недостаточно достоверной».

Из-за различий в подходах многие тесты завершались по субъективному признаку «результат очевиден». Однако статистический анализ показал: такие определения победителей оказывались корректными лишь примерно в половине случаев.

Фактически часть «успешных» тестов фиксировала не рост, а ошибку — вариант, который выиграл по показателям теста, в реальном обороте не давал ожидаемого увеличения прибыли.

Почему так важна статистическая значимость?

Статистическая значимость — это способ доказать, что разница между вариантами A и B не случайна.

Во всем мире именно так подтверждают корректность результатов A/B-тестов. Методов расчета много, каждый со своими особенностями, но принцип один: объем выборки определяется математикой, а не интуицией или опытом. Личная экспертиза медиабайера важна на этапе формулирования гипотез, но не в момент выбора победителя.

Когда тест останавливают без проверки статистической значимости, вероятность ошибки составляет примерно 50%. Это не оценка или субъективное предположение — это математический факт.

Хорошая иллюстрация — монетка: если подбросить ее 10 раз и 7 раз получить орла, можно сделать ошибочный вывод, что монета «волшебная». Но с ростом числа бросков результат стабилизируется и стремится к 50/50. Интуитивно определить момент, когда данных уже достаточно, невозможно. Именно поэтому расчеты статистической значимости — обязательная часть любого A/B-теста.

Почему победитель в тесте может проигрывать в деньгах

На длинной дистанции A/B-тесты могут не усиливать систему, а подрывать ее. И самое критичное — невозможно заметить это сразу, если система большая. На графике все выглядит как рост, но в деньгах эффект может быть противоположным. Команда продолжает радоваться «удачным» экспериментам, хотя фактически теряет прибыль.

Интуитивные решения допустимы, когда команда только ищет первую рабочую связку и работает на небольших объемах. Но при масштабировании цена ошибки становится слишком высокой. При большом объеме тестов возможен парадокс: десятки «победителей» по результатам сплита фактически снижают EPC, и это остается незамеченным в общей динамике.

Проверка статистической значимости должна была решить проблему, но стандартные инструменты рынка оказались неприменимыми. Большинство калькуляторов рассчитаны на оценку конверсий в процентах, тогда как ключевая метрика LT Monetisation — EPC. Кроме того, классические модели требуют таких объемов трафика, которые в реальности не могут быть соблюдены. Если для подтверждения разницы в +5% алгоритм требует 80 000 кликов на вариант, байер не будет продолжать тест.

Именно это противоречие и стало основной точкой, с которой начался пересмотр системы тестирования.

Новый подход

Мы пересмотрели формат тестирования и первым этапом выбрали метод для расчета статистической значимости.

Классические методики оказались непрактичны.

Они требуют заранее задавать ожидаемую разницу между вариантами и запрещают смотреть на результаты до окончания теста. Кроме того, такие методы предполагают большие объемы трафика, чтобы подтвердить даже небольшое изменение метрики. Для арбитража это экономически не оправдано: срабатывает лишь малая часть гипотез, и каждая ошибка стоит денег.

При таком подходе бизнесу пришлось бы регулярно тратить десятки тысяч кликов на эксперименты, которые в итоге не дают прироста. И при этом байеру нельзя остановить тест раньше, даже если результат очевиден — иначе нарушается методология. Каждый клик стоит денег, и, при большом количестве тестов, это превращается в ощутимые потери: слишком много бюджета уходит на гипотезы с минимальным шансом на победу. В таких условиях команда замедляется, вместо того чтобы двигаться вперед.

Нам был нужен баланс между точностью тестов и скоростью принятия решений. Поэтому мы пришли к Байесовскому подходу.

Байесовский метод пересчитывает вероятность победы варианта по мере появления новых данных.

Он широко применяется в финансах, медицине, машинном обучении и маркетинге именно потому, что работает итеративно: чем больше данных, тем выше точность. Для арбитража это принципиально важно.

Трафик можно лить порциями и пересчитывать вероятность успеха после каждой итерации (например, каждые 5 000 кликов). Это позволяет остановить эксперимент раньше, если шансы на успех низкие, или оперативно принять решение, если вероятность выигрыша очевидна. Такой подход экономит время и бюджет, в отличие от классических моделей, которые требуют больших выборок и дают только один финальный вывод.

Еще одно преимущество — Байесовский метод «говорит» на языке бизнеса:

«с вероятностью 87% вариант B лучше варианта A и увеличивает EPC на 6,2%».

Это упрощает операционные решения и делает тестирование прозрачным для байеров.

У метода есть и ограничения: он математически сложен, требует вероятностных моделей и не сводится к простым формулам в Excel. Кроме того, мы не нашли готовых решений, которые учитывали бы специфику арбитража и работали с метриками вроде EPC.

Поэтому мы разработали собственный Байесовский калькулятор на Python — с учетом наших задач, работающий с EPC и подходящий для ежедневной работы команды.

Внедрение

Медиабайеры восприняли новую методику сдержанно: переход на Байесовский подход требовал большего объема данных для принятия решений, тогда как в операционной работе давно укоренилась практика быстрой остановки тестов по визуальным признакам.

Чтобы изменить подход, в первую очередь показали, насколько легко ошибиться при субъективной оценке.

Первым экспериментом стал сплит из пяти абсолютно одинаковых лендингов («А-А-А-А-А»). Уже после 20 000 кликов один из вариантов стабильно «обходил» остальные.

В подобных случаях ошибка не является теоретическим риском — она возникает прямо в ходе работы. Для закрепления этого эффекта был выполнен следующий эксперимент: два лендинга, 6 000 кликов, визуальная разница очевидна, и в обычных условиях тест, с высокой вероятностью, был бы остановлен.

При проверке через калькулятор все становится не так однозначно.

Модель оценивает вероятность того, что вариант B действительно лучше. В данном случае она составляет 86%. По международным стандартам A/B-тестирования этого недостаточно — порог надежности должен быть не ниже 95%. Значит — необходимо продолжить тестирование.

После увеличения выборки до 32 000 кликов результат изменился.

Вариант B не просто перестал показывать прирост — он стал уступать варианту A.

Если бы тест завершился на уровне 6 000 кликов (как это могло происходить ранее), в работу попало бы решение, которое ухудшает экономику проекта. Визуально оно выглядело выигрышнее, но фактически приводило бы к прямым потерям.

Даже на уровне 32 000 кликов Байесовский метод не достиг порога уверенности, достаточного для окончательного решения.

Тем не менее тест продолжился. Цель была не завершить эксперимент любой ценой, а зафиксировать, как именно изменится картина при увеличении выборки и к какому выводу приведут данные.

Этот кейс стал дополнительным подтверждением: ранняя остановка теста ведет к ошибочным решениям, тогда как метод, основанный на вероятностных моделях, формирует более точный прогноз.

На отметке в 38 000 кликов ситуация изменилась: уверенность в победе варианта B начала снижаться, а показатели обоих вариантов постепенно выровнялись.

На этом этапе тест был остановлен. Мы зафиксировали, что ни один из вариантов не дает значимого преимущества, оставили в работе исходный вариант и переключились на новые гипотезы.

Этот кейс стал показателем: даже убедительное преимущество на старте не гарантирует итоговой победы. Только системное сопровождение теста на всем его протяжении позволяет увидеть реальные тенденции — без иллюзий и преждевременных решений.

Внутренние процессы были выстроены так, чтобы команда могла сохранять скорость — без потери точности решений.

Если на объеме в 10 000 кликов Байесовский анализ не показывает уверенного лидера, тест не «доливают до победы». Он останавливается, и трафик переносится на следующую гипотезу.

Такой подход позволяет не тратить ресурс на слабые идеи и перераспределять объемы туда, где вероятность результата выше. Скорость остается, но она управляется данными, а не интуицией.

Заключение

A/B-тесты остаются основой масштабирования в арбитражных проектах. Пока команда небольшая — быстрые решения по ощущениям еще допустимы. Но с ростом объемов и стоимости ошибок главной становится не скорость, а точность и предсказуемость результата.

Анализ тестов показал, что даже высокий win rate может искажать реальную картину. При 48% успешных сплитов модель не давала рост EPC и в ряде случаев приводила к ухудшению экономики — «успех» формировался визуально, но не подтверждался деньгами. Это стало основанием пересмотреть подход.

Мы внедрили Байесовский анализ, адаптировали его под работу на EPC, разработали собственный инструмент и пересобрали процессы принятия решений.

После запуска изменения стали заметны уже через месяц: win rate снизился до 15,8%, но именно этот результат впервые стал коррелировать с ростом EPC по трафику. Победителями перестали становиться варианты «на глаз» — только те, которые действительно дают прибыль.

Количество тестов уменьшилось, и это улучшило качество гипотез. Байеры формулируют цель заранее, оценивают потенциал гипотезы и принимают решение о тесте до запуска. Эксперименты перестали быть перебором вариантов — каждый тест выполняет конкретную бизнес-задачу.

Итог изменений прост: теперь тестирование происходит осознанно. Именно это делает систему устойчивой, а команду — сильнее с каждым днем.

Если хотите работать в команде, где создают собственные решения и постоянно совершенствуют инфраструктуру, — оставляйте заявку в нашем боте.

Больше экспертных материалов и новостей — в telegram-канале LuckyTeam.