В мире вероятностей два распределения спорят за влияние на реальность: нормальное (Гауссово) и Парето (80/20)
Они — как два разных взгляда на устройство мира:
один про баланс, другой — про дисбаланс
Гаусс: мир равных возможностей, где всё как у всех, нет героев, но нет и провалов
Нормальное распределение — это кривая с пиком в центре и симметричными «хвостами»
Оно возникает, когда много независимых факторов складываются в общий результат
Примеры. Рост людей: большинство близки к среднему, а великаны и карлики — редкость
Биологические параметры: давление, вес, скорость реакции
Ошибки измерений: при многократном взвешивании погрешности распределяются вокруг истинного значения
Распределение Гаусса описывает равновесие и отклонение от него
Здесь всё сбалансированно, отклонения в обе стороны симметричны и тем реже, чем они сильнее
Парето: мир, где выживает сильнейший. Власть меньшинства
Мир стартапов, науки и социальных сетей, где влияние одной звезды может быть силнее действия тысячи других человек
Мир неравномерен, и это его естественное состояние
Закон Парето (степенное распределение) — асимметричный, с «тяжёлым хвостом»
• 20 % усилий дают 80 % результата
• 20 % людей владеют 80 % всех ресурсов
• 20 % людей выпивают 80 % пива
Также этот закон встречается в распределении популярности книг, песен, сайтов, «вирусности» постов, в ошибках в коде, в распределении расходов на здравоохранение и т.п.
Идея 20/80 стала универсальной метафорой, условным обозначением принципа сильной асимметрии, когда многое сосредоточено в малом, но реальное отношение, конечно, может быть и другим
Закон Парето описывает дисбаланс, неравенство и «чёрных лебедей» — событий, которые редко происходят, но всё переворачивают (термин Нассима Толеба, автора экономических бестселлеров)
Гаусс возникает из-за сложения факторов (например, рост = гены + питание + спорт; это отражает Центральную предельную теорему)
Парето — из-за мультипликативных процессов (богатство = капитал × инвестиции × удача), когда механизм роста является кумулятивным, т.е. накапливает преимущество
Например, кто уже богат, может быстрее разбогатеть; кто уже популярен, чаще становится ещё популярнее
Но бывают ситуации, когда всё запутано, и Гаусс и Парето спорят
• Финансы: Ежедневные колебания цен часто близки к нормальному распределению, но кризисы (например, обвалы рынков, пузыри) описываются «хвостами» Парето
• Социология: Доходы большинства людей могут быть условно «нормальными», но сверхбогатые формируют «хвост» Парето
• Интернет-трафик: Большинство посещений сосредоточено на небольшом числе сайтов (Парето), но активность внутри сайта может быть нормально распределена
• Природные катаклизмы: землетрясения малой магнитуды встречаются часто (Гаусс); мегаземлетрясения редки, но разрушительны (Парето)
• Успеваемость студентов: если курс построен ровно — получится Гаусс
Но если есть бонусы и лидерство — появится Парето
• Продажи книг: если книги примерно одинаково популярны — Гаусс
Но в реальности — один «Гарри Поттер» делает кассу
• Вклад сотрудников в проект: в чётко организованной команде — ближе к норме; в креативной среде — один гений может всё изменить
Мир не выбирает между «равенством» и «неравенством» — он использует оба сценария. Гаусс и Парето — два ключа к разным дверям реальности
Первый работает в мире стабильности и усреднённости, второй — в мире неравенства и катастроф
Мир не всегда «средний» — иногда он «хвостатый». Гауссово распределение отражает баланс и стабильность, а Парето — концентрацию и изменчивость
Понимание этого помогает видеть целостную картину
Гаусс (предсказуемость) или Парето (стремительный рост ценой риска)?
Какое общество идеальное: справедливое (Гаусс) или эффективное (Парето)?
Прежде всего, Гаусс и Парето — не конкуренты, а, скорее, союзники; это два ключевых инструмента в богатой палитре теории вероятностей, но есть ещё десятки других, которые дополняют их
Само их выделение и противопоставление оправдано лишь с определённой точки зрения
Другие распределения лучше отражают свой какой-то кусочек реальности. Например, время ожидания (между кликами в интернете или радиоактивный распад) хорошо описывается экспоненциальным распределением
А число успехов при фиксированном количестве попыток или число опечаток на странице — биномиальным распределением…
В реальности мы часто наблюдаем гибриды или переходы от одного к другому
Например: распределение доходов или размеры городов может быть логнормальным в середине, и Парето в хвосте
Времена между поломками могут быть экспоненциальны, но также с «тяжёлым хвостом», если есть сбои-катастрофы
Мир данных — как калейдоскоп: повернёшь под другим углом — увидишь новую закономерность
Гаусс, Парето и другие распределения — это линзы, через которые мы рассматриваем реальность
Чем больше линз — тем полнее картина!
Как говорил статистик Джордж Бокс: «Все модели неправильны, но некоторые полезны»