Статистическая значимость и размер эффекта. Практика.

Продолжение предыдущего теоретического поста про статистическую значимость и размер эффекта. В этот раз займемся практикой - будем проверять гипотезы с помощью Jamovi.

Заимствуем набор данных на сайте Kaggle, который используется для образовательных целей при подготовке HR [1], подробное описание доступно здесь [2].

В датасете всего 320 наблюдений, что не очень много. При этом довольно большое количество признаков, мы будем работать только с PerformanceScore (эффективность), Salary (зарплата), Sex (пол), Termd (сотрудник был уволен или продолжает работать), SpecialProjectsCount (количество специальных проектов).

Примерим на себя роль настоящего HR аналитика и представим, что мы анализируем не учебные данные, а реальные данные нашей компании. Мы протестируем 3 пары конкурирующих гипотез. И начнём мы с проверки наличия дискриминации наших сотрудников по половому признаку. Сформулируем и выдвинем следующие гипотезы.

H0: связь между полом сотрудника и уровнем заработной платы отсутствует.
H1: существует связь между полом сотрудника и уровнем заработной платы. Женщины зарабатывают в среднем меньше, чем мужчины.

Всякий анализ начинается с визуализации данных, посмотрим на распределение наших переменных.

График наводит на мысль, что средние заработные платы мужчин выше, чем у женщин. Но этого недостаточно, для ответа и мы переходим к статистическим критериям.

Когда мы хотим проверить гипотезы о различии метрического признака между двумя классами, то мы можем, в зависимости от соблюдения определённых требований (в первую очередь нормального распределения), использовать T-критерий Стьюдента. Если мы не уверены в соблюдении этих требований, то можем воспользоваться U-критерием Манна-Уитни, что мы и сделаем [3].

Загружаем наши данные в Jamovi и выбираем T-Tests -> Independent Samples T-Test.

В Dependent Variables указываем Salary, в Grouping Variable ставим Sex. Ставим галку Mann-Whitney U иGroup 1 < Group 2 (наша альтернативная гипотеза, что уровень зарплаты меньше, чем у мужчин).

Вывод: уровень значимости (p-value) выше 0.05 мы не отвергаем нулевую гипотезу о том, что отличий по средней заработной плате между мужчинами и женщинами нет. В нашей компании дискриминации по половому признаку в части вознаграждения не выявлено.

Теперь посмотрим, как связаны между собой эффективность и заработная плата. Казалось бы, они связаны напрямую и линейно, но в практике очень часто такая зависимость не встречается по целому ряду причин. Вновь начинаем с графиков.

Графики, намекают на нелинейную связь. Мы видим, что с 1 по 3 уровень эффективности идёт линейный рост, но распределение зарплаты для оценки 4 в среднем меньше, чем для 3.

Формулируем гипотезы:

H0: связь между эффективность и заработной платой отсутствует.
H1: существует связь между эффективность и заработной платой. С ростом эффективности возрастает уровень зарплаты.

Когда мы хотим проверить линейную связь между двумя метрическими переменными мы используем корреляцию, про которую мы подробно уже говорили [4], [5]. Есть два вариант (как минимум) – линейная корреляция Пирсона для идеального случая нормального распределения и ранговая корреляция Спирмена, воспользуемся второй [6].

Для этого выбираем Regression -> Correlation Matrix.

Передаём Salary и PerfScoreID в область переменных, ставим Spearman для типа корреляции.

Вывод: уровень значимости выше 0.05, мы не отвергаем нулевую гипотезу о том, что связи между заработной платой и эффективностью нет.

Вот здесь стоит остановиться, мы видели из графиков, что связь скорей всего есть, но она нелинейная. Поэтому как аналитики, мы должны воспользоваться более точными методами для описания этих взаимоотношений, чем линейная корреляция и только после этого прийти к окончательному выводу.

Последнее, что мы посмотрим - это как связано кол-во специальных проектов сотрудника и принятие решения об увольнении. Это такой же случай, как наша первая проверка гипотез о связи пола и заработной платы, и мы воспользуемся тем же критерием Манна-Уитни, но вначале сформулируем гипотезы.

H0: связь между количество проектов и увольнением отсутствует.
H1: существует связь между количеством проектов и фактом увольнения сотрудника. С увеличением числа проектов уменьшаются увольнения.

Начинаем с графиков, которые показывают отчётливые различия по числу проектов между уволенными (1) и продолжающими работать (0).

Проверим статистически.

Вывод: мы отвергаем нулевую гипотезу в пользу альтернативной (p = 0.005). Есть связь между количеством специальных проектов и увольнением, таким образом, что со увеличением числа проектов падает кол-во увольнений.

Но! Важно заметить, что это ничего не говорит нам о том, что одно причина другого. Мы констатируем связь, но ничего не можем сказать о причинно-следственной связи между этими факторами, для этого такого анализа недостаточно.

Как мы и говорили в прошлом посте, одной статистической значимости недостаточно нам очень важен размер эффекта. В данном случае он измерен в рангово-бисериальной корреляции и равен 0.13 - это маленький размер эффекта [7].

В заключении стоит сказать, что это пример довольно удачного анализа: из 3 альтернативных гипотез мы смогли принять 1. В реальной практике HR аналитика таких быстрых результатов не стоит ожидать и работа аналитика похожа на просеивание золота из реки в поисках заветного самородка.

Ссылки: