May 17, 2021

[Продуктовый анализ | A/B-тест] Дизайн эксперимента

0) Как работает A/B-тестирование?

А/B-тестирование позволяет Вам сравнить существующую версию страницы с новыми (новым) вариантами для оптимизации, которые Вы хотели бы протестировать (CTA, название, элемент ...).

Ваши посетители делятся на равные части и повергаются различным вариантам тестирования с целью определить вариант, который лучше всего подходит для поставленной вами цели (вход, клик, добавление в корзину, …), то есть чей процент конверсии является лучшим. Затем данные подвергаются анализу и сравнению для того, чтобы определить возможны или нет изменения, которые вы хотите реализовать.

1) Виды экспериментов

1.1) A/B-тестирование может также называться сплит-тестом, или Split URL testing. В классическом A/B-тесте оба варианта Ваших страниц находятся по одной ссылке. В случае Split URL testing, вариант В находится по другой URL-ссылке (Ваши посетители, соответственно, не видят разницы).


1.2) MVT-тест позволяет вам тестировать одновременно несколько изменений на одной веб-странице: баннер, заголовок, описание или еще видео


1.3) А/В/n-тестирование позволяет тестировать n-ое число гипотез по оптимизации Вашей страницы. Например, Вы сможете протестировать шесть вариантов Вашей страницы, проведя A/B/C/D/E/F-тест.

2) Что тестировать?

В рамах вашего веб/мобильного приложения или рассылки вы можете тестировать абсолютно всё, например:

3) Как тестировать? | Дизайн эксперимента

Вводные данные для подготовки дизайна эксперимента


Общая информация:
В рамках контентного веб-сайта с посещаемостью 1,000,000 сессий/день, который монетизируется через показ рекламных баннеров есть сэмплированные/агрегированные данные, указывающие на то, что 60% или 600,000 сессий/день заканчиваются просмотром не более ≤ 1 страницы/сессия (далее - точка роста/показатель отказов). Известно, что компания зарабатывает 0,50₽ за просмотр 1 страницы/сессия. Для проверки эксперимента собран сегмент «любители спорта» на 60 000 уникальных юзеров

Идея для эксперимента:
После авторизации в общественных Wi-Fi сетях, пользователь будет перенаправляться на посадочную страницу-агрегатор статей/новостей релевантным предварительно определенному сегменту интересов пользователя. За счёт этого планируется увеличение метрики - глубина просмотра на 1 страниц/сессия среди 5% сессий из чего предположительно последует рост монетизации на 0,50₽/сессия в месяц.

Известные показатели:

  • Трафик/день - 1,000,000 сессий/день
  • Трафик/мес - 30,000,000 сессий/мес
  • RPM (Revenue Per Mille) - 500₽ за 1000 просмотров страницы
  • 1 стр. глубины просмотра = 1 стр/сессия = +0,50₽
  • Показатель отказов - 60% монетизируется строго 0,50₽/сессия || 600,000 сессий/день = 1 показ/сессия * 0,50₽ = 300.000₽/день || 9,000,000₽/мес
  • Монетизация 40% нормального трафика > 0,50₽/сессия || 400,000 сессий/день приносят больше 1 просмотра стр/сессия

    Задачи эксперимента: Увеличить глубину просмотра на 1 стр/сессия среди 5% всех сессий в рамках месяца чтобы заработать +750,000₽/мес.

    30,000,000 сессий/мес * 5% = 1,500,000 сессий/мес
    1,500,000 сессий/мес * 0,50 ₽ = +750,000₽/мес.
    Ограничения эксперимента:
  • Размер выборки для проверки эксперимента - 60,000 предварительно отобранных пользователей в рамках сегмента с интересом «любители спорта»
  • Неопределенность относительно исторических значений %CTR (кликабельности) заголовка/блока превью статьи или новости в рамках генеральной совокупности накладывает ограничение на определение размера выборки, а также подведение результатов и интерпретации эксперимента.

3.1) Дизайн эксперимента

3.1) Шаблон дизайна эксперимента

3.1.1) Установление цели эксперимента (Какую проблему решаем?)
3.1.2) Гипотеза для тестирования (Какая гипотеза приведет к цели?)
3.1.3) Изменения в рамках объекта эксперимента (Что тестируем?)
3.1.4) Определение выборки для тестирования (На ком тестируем?)
3.1.5) Метрики для оценки эксперимента (Как измеряем?)
3.1.6) Ожидаемый эффект от эксперимента (Какой рост предполагаем?)
3.1.7) План действий в зависимости от результатов эксперимента


3.1.1) Установление цели эксперимента (Какую проблему решаем?)

Увеличить эффективность рекламной монетизации, повлияв на глубину просмотра за счёт сегментированного перенаправления пользователей на посадочные страницы-агрегаторы статей/новостей, релевантных интересам пользователей.

3.1.2) Гипотеза для тестирования (Какая гипотеза приведет к цели?) Действие [X] позволит увеличить метрику [N] на величину [Y] потому что [Z] Сегментированное перенаправление пользователей после авторизации в общественных Wi-Fi сетях позволит увеличить метрику - CTR (показатель кликабельности) заголовка/превью статьи или новости в 2 раза, потому что редирект на страницу, агрегирующую релевантный сегменту контент с кликбейтными заголовками, позволит захватить внимание пользователя и увеличить кликабельность страницы новости/статьи [Действие Х] - сегментированное перенаправление пользователей после авторизации в общественных Wi-Fi сетях [позволит увеличить метрику N] - CTR статьи или новости
[на величину Y] - в 2 раза
[потому что Z] - редирект на страницу, агрегирующую релевантный сегменту контент с кликбейтными заголовками, позволит захватить внимание пользователя и увеличить кликабельность страницы новости/статьи 3.1.3) Изменения в рамках объекта эксперимента (Что тестируем?) Контрольная версия: оставляем без изменений
Тестовая версия: создаем страницу-категорию, куда парсим/генерим контент (баннер+заголовок+текст) релевантный сегменту пользователей «любители спорта». Каждая статья/новость должна размещаться в рамках уникального URL адреса, а все элементы блока превью статьи или новости должны быть кликабельны

3.1.4) Определение выборки для тестирования (На ком тестируем?)


Тестируем на предварительно собранном сегменте из 60,000 пользователей с категорией интересов «любители спорта» вне зависимости от того, относятся-ли они к 60% трафика из зоны роста.

3.1.5) Метрики для оценки эксперимента (Как измеряем?)

  • CTR заголовка/превью блока статьи или новости
  • Глубина просмотра или страниц/сессия
  • Кол-во показов рекламы
  • ARPU - средний доход на пользователя
  • Время на сайте
  • Показатель отказов

3.1.6) Ожидаемый эффект от эксперимента (Какой рост предполагаем?)

  • 2х кратное увеличение %CTR (показателя кликабельности) превью/заголовка/ссылки на страницу статьи или новости
  • Рост глубины просмотра на +1 стр/сессия вытекающий из увеличения %CTR
  • Увеличение кол-ва показов рекламы за счет роста глубины просмотра
  • Рост ARPU через увеличение кол-ва показов рекламы на пользователя
  • Увеличение времени, проведенного на сайте вследствие роста глубины просмотра
  • Уменьшение показателя отказов в результате увеличения времени на сайте

3.1.7) План действий в зависимости от результатов эксперимента

  • Если наш эксперимент будет положительным и мы увидим рост в метриках - масштабируем
  • Если метрики падают - откатываем эксперимент
  • Если метрики не меняются - формулируем новую гипотезу

4) Как интерпретировать? | Проверка гипотез и оценка тестов

4.1) Аналитическая оценка доверительных интервалов

В аналитическом подходе мы опираемся на утверждение центральной предельной теоремы (ЦПТ) и ожидаем, что разность средних значений метрик в двух группах будет иметь нормальное распределение.

4.1.1) Параметрические критерии - группа статистических критериев, которые включают в расчет параметры вероятностного распределения признака (средние и дисперсии). Их можно использовать только в случае определенности относительно типа распределения данных.

  • t-критерий Стьюдента
  • Критерий Фишера
  • Критерий отношения правдоподобия
  • Критерий Романовского

4.1.2) Непараметрическими критериями - группа статистических критериев, которые не включают в расчёт параметры вероятностного распределения основанных не на действиях с самими значениями выборки и параметрами распределения, а их частотами или рангами.

  • U-критерий Манна — Уитни Критерий
  • Q-критерий Розенбаума
  • Уилкоксона Критерий Пирсона
  • Критерий Колмогорова — Смирнова

4.2) Оценка доверительных интервалов с помощью бутстрэпа

Бутстрэп — метод исследования распределения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки. Применение бутстрэпа для оценки доверительных интервалов сводится к следующей процедуре:

5) Как приоритизировать? | ICE, PIE, PXL

5.1) Фреймворк ICE

Impact (Влияние) - Демонстрирует то, на сколько положительно идея повлияет на ключевой результат который мы пытаемся улучшить

Сonfidence (Уверенность) - Демонстрирует то, на сколько мы уверены в оценках влияния и лёгкости реализации

Ease (Простота) - Это оценка того, сколько ресурсов и усилий требуется для реализации

5.2) PIE-фреймворк

Potential (Потенциал) — сколько улучшений можно сделать на страницах?

Importance (Важность) — насколько ценный трафик на страницах (его объем и пр.)?

Ease (Простота) — насколько сложно протестировать страницу или шаблон?

5.3) PXL-фрейморк