Статистическая значимость и размер эффекта. Теория.

Очередной пост в нашем коротком экскурсе по основам статистики. И сегодня мы возьмемся за святая святых. Тему, которая с одной стороны краеугольный камень доказательства любой гипотезы, а с другой стороны источник ошибок и манипуляций. Я не претендую на то, что мы охватим все нюансы этого, на самом деле, непростого вопроса, но наша задача, как и всегда, понять основу, применение и интерпретацию.

Зачем это нужно

На волне большой популярности дашбордов их с легкостью стали приравнивать к аналитике, боюсь вас разочаровать, но это не аналитика. Анализ данных, в его ортодоксальном смысле, подразумевает проверку гипотез. Существуют разные статистические подходы для того, чтобы это делать и один из них — это использование статистической значимости.

В чем же суть подхода? Прежде всего мы выдвигаем две конкурирующие гипотезы, которые обычно называют нулевой и альтернативной или по их обозначению H0, H1 (дана разгадка названия моего канала). И затем с помощью специальных математических тестов (критериев) проверяют их.

Представим, что мы занимаемся HR аналитикой и выдвинем такие гипотезы, кстати, из моей реальной практики:

H0: эффективность сотрудника не связана с поколением, к которому сотрудник принадлежит.
H1: эффективностью сотрудника связана с поколением, к которому сотрудник принадлежит.

Нулевая гипотеза всегда о том, что связи нет. Наша альтернативная гипотеза всегда о том, что связь есть. Может быть два варианта альтернативной гипотезы:

ненаправленная – как в нашем примере, нас просто интересует, что есть какая-то связь;
направленная – если мы хотим выяснить направление связи. К примеру, вакцинация приводит к тому, что тяжело болеет меньше людей, чем без вакцинации.

Если вы заинтересовались примером про теорию поколений, конечно же никакой связи с эффективностью (чем-либо ещё) мы, в ходе исследований, не обнаружили.

Как это работает

По правилам хорошего тона, принято говорить, что мы либо отвергаем нулевую гипотезу и принимаем альтернативную, либо не отвергаем нулевую гипотезу. Чтобы сделать это мы используем уровень значимости или как чаще его называют p-значение (p-value). Настало время прятаться за авторитеты:

P-значение – это вероятность получить результат, по крайней мере такой же или более экстремальный, чем наблюдаемый, если нулевая гипотеза (и все другие предположения моделирования) на самом деле верна [1].

Если пока не понятно, то это не страшно, продолжаем разбираться. Наверняка многие из вас слышали про два традиционных уровня значимости 5% (0.05) и 1% (0.01), которые были предложены Рональдом Фишером совершенно произвольно.

Следуя определению Шпигельхалтера, если мы с вами проверяем гипотезу с помощью какого-то статистического теста и получаем p-значение = 5%, то это означает, что существует вероятность в пять процентов, что мы решили отвергнуть нулевую гипотезу при том, что она на самом деле верна. То есть, чем ниже p-значение, тем надежнее наш вывод.

Существует крайне плохая практика, называемая p-хакинг, когда исследователь запускает десятки, а то и сотни тестов в поисках заветного p-значения = 5% и, в какой-то момент, он получает его случайно в силу законов вероятности, после чего исследователь бежит на радостях публиковать свои достижения, которые потом никто не может повторить (известнейшая проблема отечественной психологии). Что же делать в этом случае?

Во-первых, не стоит бездумно и механически использовать инструменты.

Во-вторых, если вы проверяете более одной гипотезы, то существует отдельные способы для множественной проверки гипотез [2].

В-третьих, не нужно держаться за пограничное p-значение = 5%, чем оно меньше, тем надежнее ваш вывод [3].

Ошибки

Пренебрежение правилами может привести к двум типам ошибок – первого и второго рода.

Ошибка первого рода (Тип I) – мы отвергаем нулевую гипотезу в то время, как она на самом деле верна.

Ошибка второго рода (Тип II) – мы не отвергаем нулевую гипотезу в то время, как она на самом деле неверна.

Как мы уже знаем, лучше всего материал понимается на примерах и практике, заимствуем для объяснения пример [1].

Представим, что мы с вами судьи и решаем вопрос о виновности подсудимого, наши гипотезы

H0: подсудимый невиновен.
H1: подсудимый виновен.

Тогда исходы проверки гипотезы о виновности хорошо ложатся вот в такую таблицу:

Почему одной статистической значимости недостаточно

Пожалуй, самая распространённая ошибка, когда между статистической значимостью и размером эффекта ставится знак равенства. Разберём на примере, что же это значит. Мы выдвинули такие гипотезы:

H0: темперамент не связан с текучестью персонала.
H1: темперамент связан с текучестью, так что текучесть холериков выше, чем у других типов темперамента.

Представим, что мы провели статистические тесты и получили p-значение меньше 5%, после чего смело отвергли нулевую гипотезу в пользу альтернативной. Можно уже сообщать о сенсационном открытии своему HR директору и встраивать этот результат в процесс подбора? Спешить не стоит. При более детальном анализе мы с вами можем обнаружить, что разница состоит в том, что в среднем текучесть холериков на 0,0000001% больше, чем у остальных типов. Очевидно, что несмотря на статистическую значимость находки нам это ничего не даёт с практической точки зрения.

Вывод: подтверждение статистической значимости ещё ничего не говорит об экономической или любой другой ценности такого открытия.

Практиковаться будем в следующем посте.

Ссылки:

Шпигельхалтер Д. Искусство статистики.
https://ru.wikipedia.org/wiki/Поправка_на_множественную_проверку_гипотез
https://replicationindex.com/2022/01/03/est-fdr-psy-sci/?fbclid=IwAR1XWjyZLcRdTXAz6VoL2zERL71X58O3TpGHt9udyU3MoXFSp_NhnLEc5tE