Регрессия к среднему, или как показать положительный эффект от любого улучшения, даже вредоносного

Допустим, мы отслеживаем показатели какого-либо процесса:

И видим, что большинство измерений находятся вблизи средней линии. Но иногда измерения выбиваются от средней линии очень сильно, но, согласно диаграмме нормального распределения, таких измерений мало. Основная масса измерений более-менее нормальная.

Также, мы видим, что после очень сильного вылета значения вверх или вниз, следующее измерение всегда стремится обратно ближе к средней линии.

Это и называется "регрессия к среднему".

Это явление открыл Фрэнсис Гальтон в 1886 году. Открытие было сделано при сравнении роста детей и роста их родителей. У родителей, рост которых был выше среднего, дети были менее высокими, чем их высокие родители. Соответственно, если рост родителей был ниже среднего, то их дети были выше своих низких родителей, а их рост ближе к среднему.

Есть, например, рыбак. Каждый день он ходит на реку со своей удочкой, и ловит рыбу. В день в точке "14" его улов был крайне удачным. Но на следующий день он, скорее всего, наловит примерно столько же, сколько обычно. А в день №23 клева совсем не было. Но на следующий день он придет на ту же самую реку с той же самой удочкой, с той же самой приманкой. И наловит сколько обычно. Как ни хвали его в день 14 и как ни ругай в день 23, всё равно день после рекордно удачного у него будет хуже, а день после рекордно неудачного - лучше.

Как показать положительный эффект от любого улучшения, даже вредоносного

Ок, выводим на чистую воду эффективных менеджеров. Кейс реальный.

Представим, что у вас есть логистический распределительный центр. Из него машины едут примерно на 200 направлений (городов) с абсолютно случайным грузом (LTL). По-разному упакованным, разного веса и размера. В машины его грузят случайные люди, постоянно меняющиеся. Водители и машины тоже случайны.

В настолько масштабной системе конечно есть брак в виде повреждаемого груза. Причины повреждений многочисленны. Частично это зависит от того, насколько надежно груз в машине располагает грузчик. Частично от того, насколько машину трясет во время рейса. Частично от характера самого груза. Железякам ничего не будет, а хрупкое повредится.

Вы учитываете количество брака как от каждого грузчика, кто грузил машину, в котрой обнаружен брак, так и по кажому направлению (по городам). И каждый месяц вы делаете срез и вывешиваете тройку лучших грузчиков на доску почёта. Лица на доске почета меняются, т.к. сотрудники все стараются брака не допускать, но не всегда это удается. Лучше и худшие направления по количеству повреждений тоже постоянно меняются.

Вы придумываете предложение по улучшению, которое предназначено для снижения количества брака. Например, съемный второй пол:

На фото не съемный, т.к. фотки съемного я не нашел.

Его назначение в том, чтобы снимать давление массы верхнего груза на нижний груз, что должно снижать повреждаемость.

Но тут встает вопрос: должно снижать. А снижает ли на самом деле? На цифрах, на статистике.

Потому что минусы его тоже очевидны: он стоит денег, он занимает место в фуре, и нужно тратить время на его установку и демонтаж.

Второй пример улучшения для снижения брака: отдел технического контроля, который будет стоять около ворот во время погрузки, следить за тем, чтобы грузчик правильно выполнял погрузку, по всем правилам. И образого говоря, бил бы его по рукам прямо на месте, и заставлял переделывать, если бы было погружено ненадежно.

У службы ОТК тоже есть очевидный минус: их зарплата. А вот польза в виде снижения количества брака - неочевидна.

И чтобы проверить эффективность разных мер, и для эксперимента вам покупают 3 экземпляра второго пола. Теперь нужно провести испытания и собрать статистику.

Т.к. улучшение нужно для снижения повреждаемости груза, то логично применить его на трех направлениях (городах), которые показали наибольшее количество повреждений за последний месяц. Потому что зачем применять эти улучшения там, где повреждений и так нет? Что они там будут снижать?

Вы систематически устанавливаете второй пол в фуры на трех направлениях, у которых было наибольшее количество брака за последний месяц, чтобы проверить всё в реальной работе. Либо ставите туда ОТК. ОТК-шников мало, поэтому они тоже могут стоять только на 2-3 городах, не больше. Приходится выбирать для них самые приоритетные, чтобы не расходовать их силы впустую.

Ждете месяц.

Делаете новый срез.

Сравниваете результаты нового месяца (в течение которого применялись улучшения) с предыдущим месяцем.

По всем трем направлениям вы регистрируете улучшение показателя. Количество брака по трем самым худшим городам снизилось!

Хотя в среднем по всем оно не изменилось. Но на остальных машинах ведь устройств не было.

Положительный эффект налицо!

Тогда мы смотрим, какие 3 худших города теперь в новом месяце, и ставим ОТК и второй пол туда. Там тоже потом видим улучшение. И снова их куда-нибудь перебрасываем. И так до бесконечности.

Теперь посмотрим с другой стороны

Мы выбрали 3 города с самыми плохими показателями. Логично предположить, что они туда попали потому что все 3 из 200 оказались в этом месяце в этой точке по количеству брака:

Ось Х - это месяцы, как будто.

И даже если бы вы улучшений не применяли, то в следующем месяце эти три города бы в любом случае подправили свои показатели за счет регрессии к среднему. То есть, они и так ухудшились дальше некуда, и оттуда им наиболее вероятный путь только на улучшение.

Эксперимент в таких условиях практически не может показать отсутствие положительного эффекта! Но это не доказывает, что эффект есть на самом деле. Есть иллюзия эфекта.

И не потому что предложение по улучшению хорошее, а потому что регрессия к среднему вытащит вам со дна рейтингов что угодно.

Показатели троих аутсайдеров увеличатся из-за случайной изменчивости, но вы ошибочно припишете это к заслугам предложения по улучшению.

Подробнее о таких вещах:

"Думай медленно, решай быстро", Даниэль Канеман

"Выход из кризиса. Новая парадигма управления людьми, системами и процессами", Эдвардс Деминг