Статистика
June 7, 2022

Корреляция. Часть 1

Сегодня мы посмотрим на корреляцию в общем виде, без формул, вы без труда найдёте их в интернете и книжках по статистике, но мне бы хотелось поговорить про смыслы.

Вообще корреляция — это мера связи между переменными, мы прибегаем к ней, когда хотим одним числом выразить связь между явлениями. Насколько связан eNPS и текучесть? Какая сила связи между опытом работы и заработной платой? Есть ли связь между вовлеченностью и хоть чем-то во Вселенной (это действительно открытый вопрос)?

Существует много разных видов коэффициентов корреляции, но самые известные это, конечно же, линейная корреляция Пирсона и ранговая корреляция Спирмена. Обе измеряются в промежутке от [-1 до +1], где близость к нулю отсутствие связи, а к -1 или +1 это сильная отрицательная/положительная связь соответственно.

Самое главное, что нужно знать, что корреляция это не каузация, как обычно везде пишут и говорят. Если по-русски - наличие связи никак не показывает причину. Обыденный пример – известно, что между ношением шортов и покупками мороженого есть сильная корреляция, но мы же понимаем, что мы покупаем мороженое, не потому что носим шорты и не оттого носим шорты, что покупаем мороженое! Причина у этого вообще отдельная – жара на улице. ☀️☀️☀️

Более яркий пример показывающий почему связь между переменными ничего не говорит о причинах – это корреляция (0.67) между количеством фильмов, в которых снимался Николас Кейдж и ежегодным количеством утонувших в бассейнах [1]. Здравый смысл нам подсказывает, что здесь нет никакой причинно-следственной цепочки.

Часто возникает вопрос, а какая корреляция сильная или слабая? Существует различные классификации от какого числа начинается сильная связь, а где она всё ещё слабая. Я не поддерживаю такой подход и считаю, что искать ответ о силе корреляции нужно исходя из задачи и ваших данных, как и в предыдущем примере, не забываем про здравый смысл и тут.

Но есть прикольная игра [2], которая позволит вам набить руку (скорее глаз) в угадывании силы корреляций по графикам, попробуйте, как по мне, штука крайне увлекательная.

Существует проблема, что привычные нам коэффициенты корреляции всегда показывают только линейную связь, то есть, если одна переменная возрастает/убывает, то и вторая всегда возрастает/убывает. Но в жизни всё гораздо сложнее, к примеру, связь между возрастом и зарплатой, где нам известно, что с возрастом зарплата возрастает до определённого момента, но потом начинает убывать и линейные коэффициенты корреляции в данном случае применять неадекватно, точнее они не найдут никакой связи, хотя она там есть, просто нелинейная. Вот пример, который я сделал на открытых данных с Kaggle [3]

Относительно недавно был открыт новый коэффициент корреляции – кси [4], который как раз подходит для таких случаев и способен найти силу нелинейной связи, измеряется от 0 до 1. Мы обязательно испытаем его в будущей практической статье.

Ссылки:

1. https://www.tylervigen.com/view_correlation?id=359

2. http://guessthecorrelation.com/

3. https://www.kaggle.com/shwetabh123/mall-customers

4. https://win-vector.com/2021/12/29/exploring-the-xi-correlation-coefficient/?fbclid=IwAR0UWXaTugV2UipGD08RZEio9koK3gjwE8ABbhFYDcHH0WFDvasGdrOZji4