«Смерть одного человека — это смерть, а смерть двух миллионов — только статистика»: учимся распознавать ложь цифр.
Новинка августа «Цифры врут» Тома и Дэвида Чиверсов написана для тех, кто не доверяет СМИ и популярной статистике. Каждая глава — это разбор кейса, где показана ошибка в расчетах журналиста или исследователя. Чтобы не читать всю книгу, сделали выжимку самого важного.
Как числа могут вводить в заблуждение
Очень простой пример обмана можно показать на манипуляции со средним арифметическим и медианой. Не пугайтесь, объясню на пальцах. Допустим, у нас есть такой список с зарплатами в месяц: 1, 2, 3, 4, 5, 6, 7 рублей. Среднее арифметическое — это когда вы складываете все значения друг с другом (1 + 2 + 3 + 4 + 5 + 6 + 7 = 28) и делите сумму на количество зарплат (7). Получается, что среднее арифметическое — 4 руб (28/7). Чтобы узнать медиану, числа не складывают, а располагают по возрастанию и выбирают то число, которое находится посередине. В нашем случае — 4 руб. Сейчас медиана и среднее арифметическое совпали, но теперь представим, что человек с 7 рублями продал свой стартап по чтению мыслей за 142 500 000 рублей. Таким образом, заработок 6 из 7 людей не изменился, но «среднестатистический гражданин» стал мультимиллионером, что, конечно же, не так.
Причинно-следственная связь
Мы любим строить причинно-следственные связи, но зачастую делаем это неправильно. The Times выпустил статью «Газированные напитки делают подростков агрессивнее, выяснили ученые». Журналисты ссылались на исследование, где утверждалось, что потребители кока-колы с большей вероятностью агрессивны. В газете же пишут, что газированные напитки делают подростков агрессивнее. Чувствуете подвох? В исследовании обнаружили лишь корреляцию, то есть вместе с одной переменной росла и другая, но это не означает, что рост одной вызывает рост другой. По логике газеты, если бы мы запретили газировку, то агрессия бы понизилась. Как вы понимаете — это бред.
Чтобы выстраивать причинно-следственные связи, существует определенная методика — рандомизированное контролируемое исследование (РКИ). Например, набираем 1000 случайных людей и они сдают «тест на агрессию». После этого делим их на две одинаковые группы. Одной даём газировку, другой — плацебо-газировку. После этого люди опять сдают «тест на агрессию». Если у группы с настоящей газировкой увеличивается уровень агрессии, то можно создать причинно-следственную связь, если нет, то нет.
Рейтинги
Утверждение, что Великобритания пятая экономика мира, для любого британца будет лестным. Но рейтингами очень легко манипулировать. С 2016 по 2019 года пятое, шестое и седьмое место занимали три страны, меняясь друг с другом: Великобритания, Франция и Индия. ВВП этих стран практически не отличается друг от друга. Но если сравнить Великобританию с лидерами, то окажется, что экономика Германии (4 место) на 40% больше, Япония ушла вперед на 87%, Китай на 380%, а США на 630%. Разговоры о том, кто занимает пятое место, выглядит как драка карликов в стране великанов.
Точка отсчета
В 2006 году геолог опубликовал в The Daily Telegraph статью «Проблема глобального потепления существует. Оно прекратилось в 1998-м». Как он сделал такой вывод? Выбрал маленький временной диапазон, где 1998 год действительно оказался менее жарким, чем предыдущие. Но что такое один год в рамках вселенной? Он не учел, что возможны стадии плато в длительных процессах. Чтобы этого избежать, нужно взять более широкий промежуток времени и посмотреть в целом на тенденцию графика, не обращая внимания на скачки в единичных точках.
Объясню на простом примере. Вы построили песочный замок на пляже, но не проверили, отлив сейчас или прилив. Теперь вы начинаете следить за волнами, насколько далеко они заходят. В основном они не достают до замка, но однажды, допустим, в 15:50 лихая волна умудряется коснуться крепости. Потом море снова успокаивается. И вы делаете вывод: раз за следующий час ни одна волна не дошла до замка, то сейчас отлив. Но давайте посмотрим на график того, насколько далеко волны заходили по времени. Окажется, что такой большой волны, как в 15:50 не было, но в целом волны становятся больше, а следовательно, сейчас прилив, а не отлив. Случайный выброс привел к ошибке в рассчетах.
Ошибка выжившего
Классическая статистическая ошибка, которую традиционно объясняют с помощью истории о бомбардировщиках во времена Второй мировой. Самолеты подвергались постоянным обстрелам. Конструкторы хотели укрепить их броней для повышения выживаемости, но она тяжелая, поэтому нужно было найти самые уязвимые места и защитить их. Изначально, изучив самолеты, которые возвращаются с поля боя, пришли к выводу, что пули в основном находятся на фюзеляже(корпус летательного аппарата) и крыльях. Решили укрепить броней именно их.
Но Абрахам Вальд (венгерский математик, статистик) указал на ошибочность такого предположения: если самолеты вернулись обратно, то повреждения на них некритические. Значит, нужно укреплять не фюзеляж и крылья, а те места, где нет попаданий. То есть конструкторы совершили ошибку выжившего. Они не учли невернувшиеся самолеты, из-за этого получилась ограниченная выборка (только вернувшихся). Поэтому относитесь скептически к книгам «Секреты успеха, или как я разбогател». Скорее всего это ошибка выжившего.
Заключение
Я выбрал самые важные и полезные на мой взгляд мысли из книги. Конечно, ни одно summary не способно передать все её смыслы. Темы, которые не вошли в обзор, но заслуживают внимания: различия выборок, искажающие факторы, теорема Байеса, риски, прогнозирование, ошибки техасского стрелка и коллайдера, закон Гудхарта. Если вам интересно, то покупайте книгу. В тексте четкие определения и много примеров. Даже самый гуманитарный гуманитарий поймет, что такое теорема Байеса и что с ней делать.
Как заявляют авторы: «Это не просто книга, это первый шаг к статистической грамотности и ответственности». Следите теперь за нашими циферками😊.