Как соврать с помощью статистики
Тема про то, как врать с помощью статистики далеко не нова и, признаться, довольно избита. Например, есть хорошая статья на Хабре, где подробно разбираются основные случаи неверного толкования статистических данных. Особенно любят это делать СМИ в поисках хорошего кликбейта. Зачастую результаты статистических исследований выдают за причинно-следственные, а важные детали намеренно опускаются. В итоге, после такого глумления над фактажом, получаются иногда совершенно абсурдные результаты вроде того, что голубые глаза являются фактором риска алкоголизма.
Очевидное — коррелированное
Статистические исследования, коих в последние полвека стало ну уж очень много, настолько много, что некоторые научные журналы уже отказываются публиковать "статистически значимые" работы, не раскрывают причинно-следственную связь между изучаемыми явлениями, а лишь могут указать на её потенциальное наличие. Для того, что бы твёрдо сказать, что А влияет на Б надо провести точное исследование, раскрывающее то, как именно происходит это взаимовлияние.
Больше того. В мире существует куча явлений, которые, очевидно, вообще не связаны друг с другом, но при этом, с точки зрения статистики, имеют очень тесное взаимоотношение (с высокой корреляцией). Вот, например, график, показывающий отношение трат США на науку и космос и количество суицидов путём повешения (в США же). Связь очевидна, корреляция больше 99%!
При этом всём, конечно, нельзя бросаться в другую крайность и утверждать, что статистика вообще бесполезна. Это, конечно, не так, но к результатам статистических исследований надо относится очень осторожно.
Голубоглазые алкоголики
Наглядный пример описанной выше профанации, который и сподвиг меня написать эту заметку впервые ещё в 2015-м году, прислал мне мой друг. Эта "новость" — практически хрестоматийный пример "журналистики" с картинки ниже — о том, что группа генетиков из Вермонта пришла к выводу, что голубые глаза являются фактором риска алкоголизма.
Что бы продемонстрировать чудовищную разницу между пересказом и, собственно, самим исследованием, я процитирую переведённую мной аннотацию к оригинальной научной статье, ссылка на которую представлена прямо в новости. Сами оцените разницу между тем, что написал безымянный копирайтер по ссылке выше и тем, что было сказано изначально.
В архивных примерах представителей европейской родословной было обнаружено, что светлоглазые индивиды потребляют больше алкоголя, чем темноглазые. Не было опубликовано ни одного популяционного исследования по исследованию прямой связи между алкогольной зависимостью (АЗ) и цветом глаз. Нами была выдвинута гипотеза, что светлоглазые индивиды имеют большую предрасположенность к АЗ, чем тёмноглазые. Была использована смешанная модель (mixture model) для отбора гомогенных примеров из 1.263 европейских американцев при контроле за стратификацией популяции. После контроля качества, нами было проведено ассоциативное исследование с использованием логистической регрессии для адаптации к посторонним факторам (возраст, пол, генетическое родство). Нами была найдена потенциальная связьмежду АЗ и голубым цветом глаз (P = 0.0005 и отношение шансов = 1,83 (1,31-2,57), поддерживающая предположение, что светлый цвет глаз является фактором риска по отношению к тёмному.
Тут я прервусь, чтобы подчеркнуть полученную авторами работы корреляцию: ρ = 0,0005 (это целых 0,05%!). Идём дальше.
Сетевой анализ показал статистически значимое (P = 0.02) число взаимодействий между генами голубых глаз и генами, ассоциированными с АЗ. Мы нашли доказательство неравновесного сцепления генов между АЗ-ассоциированными генным кластером ГАМК рецепторов, GABRB3/GABRG3 и генами голубых глаз, OCA2/HERC2, а так же между АЗ-ассоциированным GRM5 и пигментационным геном TYR. Наши популяционно-фенотипный, сетевой, и генносцепный анализы поддерживают предположение о связи между голубым цветом глаз и алкогольной зависимостью. Несмотря на то, что мы проводили контроль за стратификацией, мы не можем исключить некоторую подлежащую стратификацию, воздействующую на результат этого исследования. Несмотря на то, что необходимо подтверждение результатов исследования, наши находки предполагают, что информация о цвете глаз может быть полезна при исследовании алкогольной зависимости. Дальнейшая характеризация этой ассоциации может открыть новые этиологические факторы АЗ.
Отметим ещё раз полученную корреляцию (уже между взаимодействиями генов): ρ = 0,02 (2%). Что же, учёные абсолютно корректны в своих выражениях — они обнаружили некоторую, пусть и слабую, но «статистически значимую» связь между цветом глаз и алкогольной зависимостью и сделали вывод о том, что эта зависимость может быть полезна и, в дальнейших исследованиях, должна быть конкретно и точно охарактеризирована. То есть, своим исследованием они наметили почву для возможных дальнейших исследований и показали, что подобные исследования могут быть оправданы. Хотя, признаться, при корреляции в 0,05% особого смысла в этом я не вижу.
Но нигде в оригинальной статье не сказано ни слова о том, что связь между этими вещами достоверно установлена!
Каково, а? То есть, сначала учёные представили какие-то смутные, но всё же корректные результаты, после чего СМИ просто взяли и поставили эти результаты с ног на голову в духе «скандалов/интриг/расследований».
Статистическая значимость
Я уже отмечал выше, что современная наука переполнена статистическими исследованиями настолько, что некоторые журналы отказываются их публиковать. Дело в том, что по своей сути такие исследования — обычно самые дешёвые из возможных и очень часто приносят результат, о котором можно написать статью. А исследование причинно-следственных связей требует, обычно, больших ресурсов, времени и чрезвычайно глубокого понимания предметной области. И, в добавок, может закончится ничем. Поэтому статистикой и пользуются многие научные коллективы.
В принципе, можно взять любые два явления, связать их в исследовании и, имея просто исторические данные показать какие-то корреляции. Я уже писал выше о корреляции инвестиций в науку и самоубийств. В принципе, на основе этих данных уже можно было бы написать статистически значимую научную статью.
Так что не стоит слепо доверять статистике, особенно если о ней говорят СМИ.