Интуиция — не метрика: как мы ушли от хаоса к цифрам в A/B‑тестах
В арбитраже без тестирования не обходится ни одна команда. Проверяют все: прелендинги, лендинги, офферы — десятки гипотез одновременно. Обычно процесс выглядит так: запускается сплит, льется трафик, и, в какой-то момент, становится заметно, что один вариант показывает лучшие метрики.
Но именно здесь возникает самый рискованный момент A/B-теста: когда «победитель» выбран слишком рано. На практике нередко оказывается, что вариант, признанный успешным, работает хуже и приводит к прямым потерям — создавая иллюзию роста вместо реального результата.
Привет! Я Ян — CPO, LuckyGroup. В этой статье я расскажу о том, почему A/B-тесты могут давать «ложноположительные» результаты, как мы теряли из-за них деньги — и благодаря какому подходу нам удалось решить эту проблему.
Введение
Один из ключевых арбитражных проектов LuckyTeam — LT Monetisation — построен на системных A/B-тестах. Проект работает с нативным трафиком без клоаки и обходных методов: фокус только на росте прибыли с текущего объема.
Основная метрика — EPC. Команда добивается результата за счет точной настройки связки «креатив — лендинг — оффер»: по сути, действует как маркетинговый R&D-центр, ежедневно выдвигающий гипотезы и проверяющий способы повысить конверсию хотя бы на 1%.
Проект работает в больших объемах:
— более 400 тестируемых лендингов ежемесячно.
Средний показатель win rate — около 48%, то есть, почти каждый второй тест дает улучшение.
На первый взгляд — впечатляющие цифры. Но именно в них и обнаружилась ключевая проблема.
При таком количестве «успешных» тестов рост должен был бы быть кратным — каждый месяц. Но этого не происходило.
Причина оказалась в разрыве между тестовой и реальной экономикой: вариант выигрывал внутри теста, но не приносил ожидаемой прибыли на дистанции. Этот незаметный на первый взгляд эффект стал отправной точкой для пересмотра всей системы.
Метрика выигрыша ≠ метрика роста
Разбираясь в проблеме мы задались вопросом: «Не живем ли мы в иллюзии роста от проведенных тестов?» и выяснили, что решения о победителях A/B-тестов принимались без единых правил. Каждый медиабайер определял «лучший» вариант по собственным критериям.
— В одних случаях тесты завершались после 500 кликов при заметном приросте показателей.
— В других — решение принималось только после десятков тысяч кликов, поскольку меньшая выборка считалась «недостаточно достоверной».
Из-за различий в подходах многие тесты завершались по субъективному признаку «результат очевиден». Однако статистический анализ показал: такие определения победителей оказывались корректными лишь примерно в половине случаев.
Фактически часть «успешных» тестов фиксировала не рост, а ошибку — вариант, который выиграл по показателям теста, в реальном обороте не давал ожидаемого увеличения прибыли.
Почему так важна статистическая значимость?
Статистическая значимость — это способ доказать, что разница между вариантами A и B не случайна.
Во всем мире именно так подтверждают корректность результатов A/B-тестов. Методов расчета много, каждый со своими особенностями, но принцип один: объем выборки определяется математикой, а не интуицией или опытом. Личная экспертиза медиабайера важна на этапе формулирования гипотез, но не в момент выбора победителя.
Когда тест останавливают без проверки статистической значимости, вероятность ошибки составляет примерно 50%. Это не оценка или субъективное предположение — это математический факт.
Хорошая иллюстрация — монетка: если подбросить ее 10 раз и 7 раз получить орла, можно сделать ошибочный вывод, что монета «волшебная». Но с ростом числа бросков результат стабилизируется и стремится к 50/50. Интуитивно определить момент, когда данных уже достаточно, невозможно. Именно поэтому расчеты статистической значимости — обязательная часть любого A/B-теста.
Почему победитель в тесте может проигрывать в деньгах
На длинной дистанции A/B-тесты могут не усиливать систему, а подрывать ее. И самое критичное — невозможно заметить это сразу, если система большая. На графике все выглядит как рост, но в деньгах эффект может быть противоположным. Команда продолжает радоваться «удачным» экспериментам, хотя фактически теряет прибыль.
Интуитивные решения допустимы, когда команда только ищет первую рабочую связку и работает на небольших объемах. Но при масштабировании цена ошибки становится слишком высокой. При большом объеме тестов возможен парадокс: десятки «победителей» по результатам сплита фактически снижают EPC, и это остается незамеченным в общей динамике.
Проверка статистической значимости должна была решить проблему, но стандартные инструменты рынка оказались неприменимыми. Большинство калькуляторов рассчитаны на оценку конверсий в процентах, тогда как ключевая метрика LT Monetisation — EPC. Кроме того, классические модели требуют таких объемов трафика, которые в реальности не могут быть соблюдены. Если для подтверждения разницы в +5% алгоритм требует 80 000 кликов на вариант, байер не будет продолжать тест.
Именно это противоречие и стало основной точкой, с которой начался пересмотр системы тестирования.
Новый подход
Мы пересмотрели формат тестирования и первым этапом выбрали метод для расчета статистической значимости.
Классические методики оказались непрактичны.
Они требуют заранее задавать ожидаемую разницу между вариантами и запрещают смотреть на результаты до окончания теста. Кроме того, такие методы предполагают большие объемы трафика, чтобы подтвердить даже небольшое изменение метрики. Для арбитража это экономически не оправдано: срабатывает лишь малая часть гипотез, и каждая ошибка стоит денег.
При таком подходе бизнесу пришлось бы регулярно тратить десятки тысяч кликов на эксперименты, которые в итоге не дают прироста. И при этом байеру нельзя остановить тест раньше, даже если результат очевиден — иначе нарушается методология. Каждый клик стоит денег, и, при большом количестве тестов, это превращается в ощутимые потери: слишком много бюджета уходит на гипотезы с минимальным шансом на победу. В таких условиях команда замедляется, вместо того чтобы двигаться вперед.
Нам был нужен баланс между точностью тестов и скоростью принятия решений. Поэтому мы пришли к Байесовскому подходу.
Байесовский метод пересчитывает вероятность победы варианта по мере появления новых данных.
Он широко применяется в финансах, медицине, машинном обучении и маркетинге именно потому, что работает итеративно: чем больше данных, тем выше точность. Для арбитража это принципиально важно.
Трафик можно лить порциями и пересчитывать вероятность успеха после каждой итерации (например, каждые 5 000 кликов). Это позволяет остановить эксперимент раньше, если шансы на успех низкие, или оперативно принять решение, если вероятность выигрыша очевидна. Такой подход экономит время и бюджет, в отличие от классических моделей, которые требуют больших выборок и дают только один финальный вывод.
Еще одно преимущество — Байесовский метод «говорит» на языке бизнеса:
«с вероятностью 87% вариант B лучше варианта A и увеличивает EPC на 6,2%».
Это упрощает операционные решения и делает тестирование прозрачным для байеров.
У метода есть и ограничения: он математически сложен, требует вероятностных моделей и не сводится к простым формулам в Excel. Кроме того, мы не нашли готовых решений, которые учитывали бы специфику арбитража и работали с метриками вроде EPC.
Поэтому мы разработали собственный Байесовский калькулятор на Python — с учетом наших задач, работающий с EPC и подходящий для ежедневной работы команды.
Внедрение
Медиабайеры восприняли новую методику сдержанно: переход на Байесовский подход требовал большего объема данных для принятия решений, тогда как в операционной работе давно укоренилась практика быстрой остановки тестов по визуальным признакам.
Чтобы изменить подход, в первую очередь показали, насколько легко ошибиться при субъективной оценке.
Первым экспериментом стал сплит из пяти абсолютно одинаковых лендингов («А-А-А-А-А»). Уже после 20 000 кликов один из вариантов стабильно «обходил» остальные.
В подобных случаях ошибка не является теоретическим риском — она возникает прямо в ходе работы. Для закрепления этого эффекта был выполнен следующий эксперимент: два лендинга, 6 000 кликов, визуальная разница очевидна, и в обычных условиях тест, с высокой вероятностью, был бы остановлен.
При проверке через калькулятор все становится не так однозначно.
Модель оценивает вероятность того, что вариант B действительно лучше. В данном случае она составляет 86%. По международным стандартам A/B-тестирования этого недостаточно — порог надежности должен быть не ниже 95%. Значит — необходимо продолжить тестирование.
После увеличения выборки до 32 000 кликов результат изменился.
Вариант B не просто перестал показывать прирост — он стал уступать варианту A.
Если бы тест завершился на уровне 6 000 кликов (как это могло происходить ранее), в работу попало бы решение, которое ухудшает экономику проекта. Визуально оно выглядело выигрышнее, но фактически приводило бы к прямым потерям.
Даже на уровне 32 000 кликов Байесовский метод не достиг порога уверенности, достаточного для окончательного решения.
Тем не менее тест продолжился. Цель была не завершить эксперимент любой ценой, а зафиксировать, как именно изменится картина при увеличении выборки и к какому выводу приведут данные.
Этот кейс стал дополнительным подтверждением: ранняя остановка теста ведет к ошибочным решениям, тогда как метод, основанный на вероятностных моделях, формирует более точный прогноз.
На отметке в 38 000 кликов ситуация изменилась: уверенность в победе варианта B начала снижаться, а показатели обоих вариантов постепенно выровнялись.
На этом этапе тест был остановлен. Мы зафиксировали, что ни один из вариантов не дает значимого преимущества, оставили в работе исходный вариант и переключились на новые гипотезы.
Этот кейс стал показателем: даже убедительное преимущество на старте не гарантирует итоговой победы. Только системное сопровождение теста на всем его протяжении позволяет увидеть реальные тенденции — без иллюзий и преждевременных решений.
Внутренние процессы были выстроены так, чтобы команда могла сохранять скорость — без потери точности решений.
Если на объеме в 10 000 кликов Байесовский анализ не показывает уверенного лидера, тест не «доливают до победы». Он останавливается, и трафик переносится на следующую гипотезу.
Такой подход позволяет не тратить ресурс на слабые идеи и перераспределять объемы туда, где вероятность результата выше. Скорость остается, но она управляется данными, а не интуицией.
Заключение
A/B-тесты остаются основой масштабирования в арбитражных проектах. Пока команда небольшая — быстрые решения по ощущениям еще допустимы. Но с ростом объемов и стоимости ошибок главной становится не скорость, а точность и предсказуемость результата.
Анализ тестов показал, что даже высокий win rate может искажать реальную картину. При 48% успешных сплитов модель не давала рост EPC и в ряде случаев приводила к ухудшению экономики — «успех» формировался визуально, но не подтверждался деньгами. Это стало основанием пересмотреть подход.
Мы внедрили Байесовский анализ, адаптировали его под работу на EPC, разработали собственный инструмент и пересобрали процессы принятия решений.
После запуска изменения стали заметны уже через месяц: win rate снизился до 15,8%, но именно этот результат впервые стал коррелировать с ростом EPC по трафику. Победителями перестали становиться варианты «на глаз» — только те, которые действительно дают прибыль.
Количество тестов уменьшилось, и это улучшило качество гипотез. Байеры формулируют цель заранее, оценивают потенциал гипотезы и принимают решение о тесте до запуска. Эксперименты перестали быть перебором вариантов — каждый тест выполняет конкретную бизнес-задачу.
Итог изменений прост: теперь тестирование происходит осознанно. Именно это делает систему устойчивой, а команду — сильнее с каждым днем.
Если хотите работать в команде, где создают собственные решения и постоянно совершенствуют инфраструктуру, — оставляйте заявку в нашем боте.
Больше экспертных материалов и новостей — в telegram-канале LuckyTeam.