February 5, 2021

Простой способ определить зависимость

В  современную цифровую эпоху нас окружают потоки информации, от понимания  которых зависит наша успешность и благосостояние. В особенности  изучением данных озаботились крупные и средние компании, которые  стремятся максимизировать прибыль путем оптимизации бизнес-процессов.  Базовым этапом анализа информации является определение зависимости между  некоторыми явлениями.

Наиболее  простым и распространенным способом для этого служит нахождение  коэффициентов ковариации (Gxy) и корреляции (Pxy). Формально они  определяются как:

  • Gxy  = E(X-Ex)(Y-Ey), где E - математическое ожидание, соответственно Ex, Ey  - математические ожидания случайных величин X и Y (подробнее о понятиях  рассказывал здесь);
  • Pxy = Gxy / (Sx*Sy), где Sx и Sy - стандартные отклонения X и Y (читай здесь).

Как  можно заметить, эти два коэффициента имеют непосредственную связь друг с  другом. При этом Pxy введен больше для удобства из-за некоторых  недостатков Gxy, заключающихся в следующем:

  • единицей  измерения коэффициента ковариации является произведение единиц  измерения входящих величин, что сложно интерпретировать (если исследуем  взаимосвязь между количеством друзей в социальной сети и временем  нахождения там, то - количество друзей * минуты);
  • Gxy принимает различные значения и сложно сказать, какое из них является большим, а какое - малым, так как нет точки отсчета.

В то же время Pxy безразмерная величина и изменяется от -1 (идеальная отрицательная взаимосвязь) до 1 (идеальная положительная взаимосвязь).

Рассмотрим  пример подсчета Gxy и Pxy, для случайных величин X - погода и Y -  длительность времени в пути. Пусть их совместное распределение имеет  следующий вид (задача взята из книги "Введение в эконометрику" Д.Сток,  М. Уотсон):

Найдем сначала Ex, Ey, Dx,Dy, Sx,Sy. Для дискретной случайной величины в соответствии с ранее введенными формулами:

Ex = 0*0.3 + 1*0.7 = 0.7

Ey = 0*0.22 + 1 * 0.78 = 0.78

Для подсчета дисперсии Dx = E(x-Ex)**2 построим таблицу распределения случайной величины (x-Ex)**2:

Dx = 0.49*0.3 + 0.09*0.7 = 0.147 + 0.063 = 0.21;

Sx = 0.4583

Аналогично для (y-Ey)**2 получаем таблицу:

Dy = 0.133848 + 0.037752 = 0.1716

Sy = 0.4142

Gxy  можно найти из первой таблицы в соответствии с формулой нахождения  математического ожидания дискретной случайной величины (подробнее здесь):

Из  формулы видно, что слагаемое суммы положительно, если оба значения X и Y  одновременно выше или ниже средних (своих математических ожиданий) и  отрицательно - в противоположном случае. Соответственно, большая  положительная ковариация возникает, если обе случайные величины  стремятся одновременно принимать большие или низкие значения, а большая  отрицательная - когда при больших значениях X величины Y малые и  наоборот. Это согласуется с понятием взаимосвязи между X и Y.

Подсчитаем Gxy:

Gxy = (-0.7)(-0.78)*0.15 + (-0.7)(0.22)*0.15+(0.3)(-0.78)*0.07 +0.3*0.22*0.63 = 0.0819 - 0.0231 - 0.01638 + 0.04158 = 0.084

Pxy = 0.084/(0.4142*0.4583) = 0.4425

Таким образом, можно заключить, что имеется небольшая взаимосвязь между временем затрачиваемым на дорогу и погодными условиями.

Напоследок  подчеркну, что коэффициенты ковариации и корреляции находят только  линейные зависимости между величинами, поэтому на их основе некорректно  делать однозначный вывод об отсутствии связи. Далее рассмотрим, как  считать эти значения на практике, в отсутствие сведений о распределении  вероятностей и, конечно, применять для этих целей язык программирования  Python.

Делитель в комментариях об интересных зависимостях и неочевидных связях установленных вами.