Статистическая значимость и размер эффекта. Теория.
Очередной пост в нашем коротком экскурсе по основам статистики. И сегодня мы возьмемся за святая святых. Тему, которая с одной стороны краеугольный камень доказательства любой гипотезы, а с другой стороны источник ошибок и манипуляций. Я не претендую на то, что мы охватим все нюансы этого, на самом деле, непростого вопроса, но наша задача, как и всегда, понять основу, применение и интерпретацию.
Зачем это нужно
На волне большой популярности дашбордов их с легкостью стали приравнивать к аналитике, боюсь вас разочаровать, но это не аналитика. Анализ данных, в его ортодоксальном смысле, подразумевает проверку гипотез. Существуют разные статистические подходы для того, чтобы это делать и один из них — это использование статистической значимости.
В чем же суть подхода? Прежде всего мы выдвигаем две конкурирующие гипотезы, которые обычно называют нулевой и альтернативной или по их обозначению H0, H1 (дана разгадка названия моего канала). И затем с помощью специальных математических тестов (критериев) проверяют их.
Представим, что мы занимаемся HR аналитикой и выдвинем такие гипотезы, кстати, из моей реальной практики:
- H0: эффективность сотрудника не связана с поколением, к которому сотрудник принадлежит.
- H1: эффективностью сотрудника связана с поколением, к которому сотрудник принадлежит.
Нулевая гипотеза всегда о том, что связи нет. Наша альтернативная гипотеза всегда о том, что связь есть. Может быть два варианта альтернативной гипотезы:
- ненаправленная – как в нашем примере, нас просто интересует, что есть какая-то связь;
- направленная – если мы хотим выяснить направление связи. К примеру, вакцинация приводит к тому, что тяжело болеет меньше людей, чем без вакцинации.
Если вы заинтересовались примером про теорию поколений, конечно же никакой связи с эффективностью (чем-либо ещё) мы, в ходе исследований, не обнаружили.
Как это работает
По правилам хорошего тона, принято говорить, что мы либо отвергаем нулевую гипотезу и принимаем альтернативную, либо не отвергаем нулевую гипотезу. Чтобы сделать это мы используем уровень значимости или как чаще его называют p-значение (p-value). Настало время прятаться за авторитеты:
P-значение – это вероятность получить результат, по крайней мере такой же или более экстремальный, чем наблюдаемый, если нулевая гипотеза (и все другие предположения моделирования) на самом деле верна [1].
Если пока не понятно, то это не страшно, продолжаем разбираться. Наверняка многие из вас слышали про два традиционных уровня значимости 5% (0.05) и 1% (0.01), которые были предложены Рональдом Фишером совершенно произвольно.
Следуя определению Шпигельхалтера, если мы с вами проверяем гипотезу с помощью какого-то статистического теста и получаем p-значение = 5%, то это означает, что существует вероятность в пять процентов, что мы решили отвергнуть нулевую гипотезу при том, что она на самом деле верна. То есть, чем ниже p-значение, тем надежнее наш вывод.
Существует крайне плохая практика, называемая p-хакинг, когда исследователь запускает десятки, а то и сотни тестов в поисках заветного p-значения = 5% и, в какой-то момент, он получает его случайно в силу законов вероятности, после чего исследователь бежит на радостях публиковать свои достижения, которые потом никто не может повторить (известнейшая проблема отечественной психологии). Что же делать в этом случае?
Во-первых, не стоит бездумно и механически использовать инструменты.
Во-вторых, если вы проверяете более одной гипотезы, то существует отдельные способы для множественной проверки гипотез [2].
В-третьих, не нужно держаться за пограничное p-значение = 5%, чем оно меньше, тем надежнее ваш вывод [3].
Ошибки
Пренебрежение правилами может привести к двум типам ошибок – первого и второго рода.
Ошибка первого рода (Тип I) – мы отвергаем нулевую гипотезу в то время, как она на самом деле верна.
Ошибка второго рода (Тип II) – мы не отвергаем нулевую гипотезу в то время, как она на самом деле неверна.
Как мы уже знаем, лучше всего материал понимается на примерах и практике, заимствуем для объяснения пример [1].
Представим, что мы с вами судьи и решаем вопрос о виновности подсудимого, наши гипотезы
Тогда исходы проверки гипотезы о виновности хорошо ложатся вот в такую таблицу:
Почему одной статистической значимости недостаточно
Пожалуй, самая распространённая ошибка, когда между статистической значимостью и размером эффекта ставится знак равенства. Разберём на примере, что же это значит. Мы выдвинули такие гипотезы:
- H0: темперамент не связан с текучестью персонала.
- H1: темперамент связан с текучестью, так что текучесть холериков выше, чем у других типов темперамента.
Представим, что мы провели статистические тесты и получили p-значение меньше 5%, после чего смело отвергли нулевую гипотезу в пользу альтернативной. Можно уже сообщать о сенсационном открытии своему HR директору и встраивать этот результат в процесс подбора? Спешить не стоит. При более детальном анализе мы с вами можем обнаружить, что разница состоит в том, что в среднем текучесть холериков на 0,0000001% больше, чем у остальных типов. Очевидно, что несмотря на статистическую значимость находки нам это ничего не даёт с практической точки зрения.
Вывод: подтверждение статистической значимости ещё ничего не говорит об экономической или любой другой ценности такого открытия.