Доверительные интервалы

Продолжаем серию постов про базовые идеи из статистики, которые пригодятся нам дальше в аналитической практике. В прошлый раз мы говорили про нормальное распределение [1], сегодня на очереди доверительный интервал.

Теория

Мы привыкли мыслить точечными значениями, но в этом, зачастую лежит большая ошибка в интерпретации исследований и явлений вокруг нас. К примеру, мы хотим с вами понять уровень вовлеченности наших сотрудников, мы берём выборку, проводим тестирование и получаем среднее значение равное 3. Поскольку нас интересует не выборка, а все наши сотрудники, то мы заключаем, что уровень вовлеченности всех наших сотрудников равен 3. К сожалению, это может быть вовсе не так и для того, чтобы оценить это правильно и нужны доверительные интервалы.

Если обобщить этот пример, то нас, как аналитиков, всегда интересуют свойства генеральной совокупности (все мужчины или женщины, все инженеры, все айтишники, все сотрудники производственных компаний и т.д.), но оценку этих свойств мы всегда делаем по выборкам, так как получить данные по генеральной совокупности невозможно, банально - это дорого.

В фундаментальной книге по статистике Barbara G. Tabachnick. Using Multivariate Statistics проблема описывается так:

Статистика используется для принятия рациональных решений в условиях неопределенности. Выводы о генеральной совокупности основываются на выборках, которые содержат неполную информацию. Различные выборки, взятые из одной генеральной совокупности, вероятно, отличаются друг от друга и от генеральной совокупности. Следовательно, выводы относительно генеральной совокупности всегда немного рискованны.[2]

Заимствуем определение доверительного интервала уже у хорошо нам знакомого Шпигельхалтера.

Доверительный интервал — это тот диапазон параметров генеральной совокупности, при котором наша наблюдаемая статистика будет правдоподобным следствием. [3]

Для разных распределений существуют разные формулы доверительных интервалов, мы с вами знакомы с нормальным распределением и для него есть своя формула (зачастую это делается через t-распределение, но в эти дебри мы не пойдём). И формулами пугать сегодня не стану, они уже могут показаться не такими простыми, если статистика не ваша рутина, для любителей хардкора можно посмотреть подробнее здесь [4].

Я же сфокусируюсь на сути. Обычно используют 90%, 95% и 99% доверительные интервалы. Что же это значит? Вернемся к нашему примеру с вовлеченностью. Напомню, мы оценили среднее по выборке, оно равно 3. Оценив 95% доверительный интервал этого среднего, мы могли бы получить вот такой интервал [2; 5].

То есть, если бы с вами продолжили брать выборки из нашей генеральной совокупности и всякий раз считать среднее значение вовлеченности, то в 95% случаев мы бы получали результаты от 2 до 5. При таком разбеге на пятибалльной шкале, становится очевидно, что наше среднее равное 3 вообще непоказательно.

Доверительные интервалы, также как и статистическая значимость, о которой мы поговорим в следующий раз, сильно страдают от ошибочных интерпретаций. Самая распространённая: 95% процентный (любой другой) доверительный интервал говорит о вероятности в 95%, что наше истинное среднее в этом интервале. Нет, это не так! Это значит, что если брать выборки много раз, то в 95% случаев значение будет в этом интервале.

Практика

Думаю, вам уже хорошо известен мой подход, что все проще понять через практику, поэтому продолжим работать в Jamovi вот с этими данными по вовлеченности [5].

Загружаем данные из hiVotes.csv, отметим, как Jamovi прекрасно с этим справился и загрузил 1 597 830 строк, что мы бы никогда не смогли сделать в Excel (не считая PowerPivot, конечно же).

Загрузив данные, мы проделываем уже знакомые нам операции. Посмотреть доверительные интервалы можно с помощью разведывательного анализа (Exploration). Представим, что hiVote и есть наша вовлеченность.

Перекидываем нашу переменную с баллами hiVote в поле Variables, ставим галку Confidence interval for Mean (доверительный интервал для среднего), оставляем значение в 95% без изменений и всё мы получили доверительные интервалы.

Вывод: мы получили среднее значение (mean) вовлеченности равное 2.92 и 95% доверительный интервал от 2.91 до 2.92. Который нам говорит, что, если мы продолжим извлекать выборки из генеральной совокупности, то в 95% случаев мы будем получать среднее значение вовлеченности от 2.91 до 2.92. Что является очень узким интервалом и это значит, что наша оценка хорошая.

Ссылки:

1. https://teletype.in/@h0h1_hr_analytics/yyWgg3xIZEA

2. Tabachnick B. Using Multivariate Statistics.

3. Шпигельхалтер Д. Искусство статистики.

4. http://statistica.ru/theory/doveritelnye-intervaly/

5. https://www.kaggle.com/datasets/harriken/myhappyforce-survey-employee-stress