Нормальное распределение

Мне бы хотелось перейти к более продвинутым аналитическим постам, к примеру, к постам с применением регрессий, но для этого нужно осветить некоторые статистические концепты. Честно говоря, я намерено избегал этих тем, оставляя читателям возможность самим находить более глубокую информацию, но так становится тяжело двигаться дальше поэтому некоторые, базовые вещи я опишу на моём канале в упрощенном виде, а именно:

Нормальное распределение.
Доверительные интервалы.
Статистическая значимость и размер эффекта.Теория и практика
Логарифмирование и преобразование переменных.

Всё сразу мы рассматривать не станем, пойдем по порядку и сегодня начнём с нормального распределения.

График нормального распеределения со средним = 0 и стандартным отклонением = 1

Немножко теории

Распределение – это такая математическая функция, согласно которой значения возникают с определенной вероятностью. Существует множество различных распределений: равномерное, биномиальное, Пуассона, экспоненциальное, логнормальное, бета, гамма и куча других, но самое известное, это конечно же, нормальное распределение.

Нормальное распределение, оно же распределение Гаусса, гауссиана, колоколообразная кривая – это основа огромного множества статистических методов, благодаря которой они вообще работают.

Метафорически можно сказать, что мы залезаем под капот статистических методов и тестов, некоторые из которых уже применялись мной в ряде предыдущих статей. Вы можете не держать в голове точной формулы нормального распределения [1], но должны знать зачем вообще оно нужно и что, большая часть статистических методов применима тогда и только тогда, когда ваши данные распределены нормально иначе вы рискуете очень сильно ошибиться в выводах.

Нормальное распределение можно моделировать, зная всего лишь два параметра – среднее значение и стандартное отклонение.

Есть определенные отличия для случаев генеральной совокупностью и выборки (далее для простоты мы рассмотрим случай для выборки).

Отличительной особенность нормального распределения является то, что оно симметрично относительно своего среднего, это хорошо видно на картинке в начале поста, где среднее равно 0.

Думаю, что большинству известно, что такое среднее значение. Да, это то самое среднее из школьной математики – когда мы сумму всех значений делим на их количество. Представим, что мы хотим найти среднее значение трех известных нам чисел 10, 20 и 30:

Вот со стандартным отклонением, вероятнее всего, знакомо уже меньше людей. Можно представить, что это мера изменчивости данных, которая показывает, насколько «в среднем» наши данные могут отклоняться от среднего значения. Чем меньше стандартное отклонение, тем меньше изменчивость данных и наоборот.

Без паники, формула не такая страшная, как может показаться на первый взгляд, мы от каждого значения отнимаем его среднее, возводим в квадрат, суммируем, делим полученную сумму на количество элементов минус единицу и извлекаем корень из всего этого. Проделаем это с нашим игрушечным примером из трех значений.

Подбираемся к практической стороне. Из свойств нормально распределения вытекает замечательное правило, называемое правилом 3 сигм. Сигма, это всё тоже самое стандартное отклонение, которое мы только что изучили, а правило следующее – если наше распределение нормальное, то на расстоянии в одно стандартное отклонение (сигму) в обе стороны от среднего мы захватим 68% наших данных, в 2 стандартных отклонения 95%, а в 3 стандартных отклонения 99%, если пока до конца не понятно, не страшно, впереди, нас ждет практика.

На этом правиле основан очень интересный статистический метод – контрольная карта Шухарта [2], короткий пример применения метода в HR аналитике можно прочитать у Эдуарда Бабушкина [3].

Многие явления и вещи вокруг нас, но далеко не все, основаны на нормальном распределении, к примеру, распределение роста человека. Так же нормальное распределение используются при составлении шкал для профессиональных тестов и личностных опросников – привет специалистам по оценке персонала.

Одно из моих любимых приложений от коллеги HR аналитика Юрия Тукачева хорошо демонстрирует эту закономерность [4]. Выберите интересующий вас уровень IQ и посмотрите, какая доля распределения ниже или выше этого уровня (напомню, что средний уровень интеллекта от 90 до 110 баллов)

И последний теоретический вопрос - как понять, что мы имеем дело с нормальным распределением, а не с каким-то другим? Существуют разные способы определить является ли распределение нормальным. Два самых распространенных – визуально, то есть наш график распределения должен напоминать колоколообразную кривую. Второй способ – использовать статистические критерии, к примеру, Колмогорова-Смирнова или Шапиро-Уилка. Оба способа по-своему раскритикованы и серебряной пули нет - выбор способа зависит от разных факторов, к примеру, от количества данных в вашей выборке.

Практика

Мой любимой способ разобраться с чем-либо новым - это практиковаться. Мы продолжим разбирать примеры в Jamovi (смотри мой прошлый пост с обзором продукта [5] ).

Представим, что нам известно, что средний рост человека 175 см, а стандартное отклонение 10 см. Зная это смоделируем 1000 записей с такими параметрами.

В этот раз мы не грузим никаких данных, а просто добавляем 1000 пустых строк, как это показано на картинке.

Дальше мы создадим переменную (колонку), в которой воспользуемся функцией NORM() именно она генерирует нормальное распределение в Jamovi, и как мы говорили в теоретической части, для этого нам достаточно знать только два параметра - среднее значение (175 см) и стандартное отклонение (10 см).

Создавать переменные в Jamovi можно несколькими способами, я выбрал вариант сделать это через вкладку Variables. При нажатии кнопки "+" выбираем вариант "Computed variables". В открывшемся окне можем указать название переменной, но главное написать нашу функцию NORM(175, 10).

Как вы уже знаете, мы начинаем наш анализ с исследования данных или описательных статистик. Выберем вкладку Analyses, нажмем Exploration, перекинем Рост человека в поле Variables, а также сразу выберем графики в разделе Plots, нас интересует гистограмма (Histogram) и график плотности (Density)

Поговорим про полученный результат. Справа в отчёте мы видим, что у нас 1000 наблюдений (N), среднее значение равно 175 (Mean), стандартное отклонение 10 (Standart deviation). Наш график также напоминает нормальное распределение. То есть крайне низких значений (левый хвост) и крайне высоких значений (правый хвост) мало, а основные данные разбросаны вокруг среднего.

Теперь давайте применим правило 3 сигм и интерпретируем его.

1. Одно стандартное отклонение от среднего:

175 - 10 * 1 = 165;

175 + 10 * 1 = 185.

То есть 68% людей, по нашим данным, имеют рост от 165 до 185 см.

2. Два стандартных отклонение от среднего:

175 - 10 * 2 = 155;

175 + 10 * 2 = 195.

95% людей имеют рост от 155 до 195 см.

3. Три стандартных отклонение от среднего:

175 - 10 * 3 = 145;

175 + 10 * 3 = 205.

99% людей имеют рост от 145 до 205 см.

Обратите внимание, что благодаря свойствам нормального распределения мы не вылетели за максимальное (206) и минимальное значение (138) в наших данных, которые представляют собой оставшуюся долю.

В завершение поста поделюсь, что ещё можно почитать про нормальное распределение, так как я осветил далеко не всё, что его касается, если вы хотите знать больше:

Шпигельхалтер Д. Искусство статистики. (Колоколообразная кривая, стр. 97-103)
Сидоренко Е. Методы математической обработки в психологии. (1.3. Распределение признака. Параметры распределения, стр. 13-15)
Barbara G. Tabachnick. Using multivarite statistic (4.1.5.1 Normality, pages 79-83)

Ссылки: