April 5, 2019

Почему?

Чтобы наконец-то понять, вреден ли кофе

«Почему? Новая наука о причинно-следственной связи» — это адаптированный для широкой публики вариант научных публикаций Джуды Перла. Зачем читать популярное нечто о статистике? Причина чисто шкурная (в прямом смысле слова): мы регулярно сталкиваемся с тем, что «британские ученые установили», «британские ученые опровергли то, что они же установили днем ранее» или «британские ученые придерживаются прямо противоположных точек зрения». Все бы ничего, если бы эти «открытия» не касались продуктов регулярного использования (например, кремов и сывороток для лица) или оценки наших ежедневных действий (бегать утром или вечером, бег или качалка — что лучше?). Чтобы из вороха информации выделять более надежные источники, необходимо понимать статистические принципы «правильных» исследований. А в случае полного разочарования от противоположных мнений ученых — методологические причины этого.

Другие два момента: моделирование причинно-следственных связей сверхважно для развития искусственного интеллекта, поэтому теоретические разработки в этой области примерно указывают на логику, которой будет следовать развитие искусственного интеллекта (а нам всем все же интересно, когда уже нас заменят роботы). Также книга дает представление о теоретической дискуссии внутри статистики как науки.

Учитывая все это, утверждать, что книга читается легко, конечно, нельзя. Но все-таки, когда привыкаешь к формулам (полностью без них у авторов не получилось), чтение становится приятным. Также нельзя не отметить: автор не очень тактично отзывается о многих ученых, занимавшихся статистикой.

Несколько слов об искусственном интеллекте: Джуда Перл убежден, что развитие искусственного интеллекта на базе причинно-следственных связей — единственно верный путь. Его преимущество перед глубинным обучением состоит в том, что причинно-следственные связи прозрачны, а глубинное обучение — нет. Так, хотя разработанная Google программа AlphaGo побеждает профессиональных игроков в го, что казалось невозможным (в отличие от шахмат, там слишком много вариантов и их невозможно все выучить), разработчики не знают, как она работает. Джуда Перл уверен, что роботы должны понимать сослагательное наклонение, ведь только оно позволяет коммуницировать с людьми и гарантирует возможность обучения на прошлых ошибках.

Чем не устраивает обычная статистика?

Традиционные статистические методы в целом показывают корреляцию, но не причинно-следственные связи. Эту истину вдалбливают в голову всем студентам на курсах статистики. Традиционные методы статистики позволили выявить множество закономерностей, но они серьезно ограничивают возможности познания мира в XXI веке. Ведь корреляция порой не только вводит нас в заблуждение (песни петуха на заре никак не причина восхода солнца), но и не позволяет ответить на такие вопросы: «Какова основная причина выздоровления пациента?», «Что было бы, если бы население резко сократило потребление алкоголя?», «Что будет, если изменить налоговую ставку?». И множество других, для получения ответа на которые невозможно провести эксперимент с контрольной группой. (Последнее стало стандартом в медицине и постепенно распространяется и в других областях.)

Отсутствие понятийного аппарата для отражения причинно-следственных связей — основная причина этого положения. При этом вопросы из серии «Что, если?» — неотъемлемая часть нашего мышления. Во всех областях жизни мы руководствуемся именно анализом происходящего и размышлениями о том, что будет, если поступить так или иначе. Воображение — важнейший фактор формирования человека и развития общества, как показал Юваль Харари в своей книге «Sapiens. Краткая история человечества».

Чтобы обогатить статистический аппарат, Джуда Перл предлагает диаграммы со стрелками (ниже мы расскажем о них подробно). Пункт X и пункт Y соединены стрелкой, острие которой указывает, какой показатель «прислушивается» к другому. Джуда Перл не был первым, кто графически представил взаимосвязь двух событий. Причинно-следственная революция проходила постепенно на протяжении более чем полувека.

Благодаря стрелкам — это новшество лишь на первый взгляд кажется дребеденью, но по факту требует нетривиальных логических способностей (не расслабляйтесь) — анализ вышел на новый, третий уровень. Лестница показывает предыдущие два: первый — это корреляция, мы лишь наблюдаем за происходящим (да, анализ больших данных и искусственный интеллект находятся на нем), на следующем уровне мы задумаемся о последствиях своих действий, то есть вмешиваемся (здесь расположены исследования с контрольными группами), на третьем — переход к сослагательному наклонению, когда для ответа на вопрос «Что, если?» требуются лишь данные и стрелочки, искусно помноженные на привычные статистические методы.

Корреляция — это не причинно-следственные связи. Разве?

Английский антрополог, географ, психолог Френсис Гальтон (1822–1911) одним из первых начал анализировать наследственность. Он рассматривал рост отцов и их сыновей, и выявил закономерность, известную как «регрессия к средним величинам». То есть высока вероятность, что у высокого отца сын будет ниже ростом (и наоборот). Если бы это было не так, то тогда средний рост населения серьезно менялся бы, но он остается стабильным. Чтобы наглядно показать этот процесс, он сконструировал «доску Гальтона». Если бросить один шарик, то предсказать его размещение сложно, но при тысяче общее распределение статистикам сегодня известно.

Рис. 1. Доска Гальтона

Идею выявленной таким образом «двойной» корреляции (можно взять рост отца или сына и предположить рост сына и отца соответственно), которая не является причинно-следственной связью, подхватил английский математик, статистик, биолог и философ Карл Пирсон (1857–1936). Пирсон увидел в таком подходе возможность вывести гуманитарные и социальные области знаний (например, психологию) на уровень точных наук, ведь появилась строгая математическая методология. При этом анализ и внимание к причинно-следственным связям он считал ненужными и в корне неверными. Пирсон основал научный журнал Biometrika — до сих пор ведущий в области статистики. И благодаря этому (а также активному развитию статистического направления в русле корреляционного анализа) Пирсон оказал значительное влияние на то, что «корреляция не выявляет причинно-следственных связей» стало де факто аксиомой. С противниками такой точки зрения он активно боролся всеми доступными в научном сообществе способами.

Несмотря на последнее, американский генетик и статистик Сьюалл Райт (1889–1988) активно опирался на идею причинно-следственных связей, когда анализировал окрас морских свинок. Так, он объяснял, при учете каких факторов можно было предсказать окрас свинки, если известен окрас шкурки ее предков. При этом он использовал стрелочную диаграмму. Однако подход по обозначению причинно-следственных связей именно таким образом не прижился в тот момент. В социологии развилось моделирование структурными уравнениями (Structural equation modeling), а в экономике — система одновременных уравнений, которые позволяли учитывать причинно-следственные связи.

Почему все это было важно ученым? Научные подходы опираются на философские концепции. Так, Пирсон был приверженцем позитивизма и поэтому считал, что наука должна основываться на объективных данных, фактах, цифрах, то есть статистике. Тогда как при построении причинно-следственных моделей со свинками присутствует очевидное субъективное начало: ведь ученый изначально сам решает, какие факторы могли влиять, и включает их в модель, этих факторов нет в данных о цвете шкурки свинок.

Джуда Перл, предлагая методологию учета причинно-следственных связей, уверен, что опора на уже известные нам факты при построении моделей не только допустима, но и желательна. Надо руководствоваться здравым смыслом. Таким образом он продолжает вечный спор внутри научного сообщества о том, сколько субъективизма допустимо в науке.

Без Холмса никуда

Как вы помните, Шерлок Холмс по уликам и обрывкам информации выстраивал события и находил причину происходящего, отбрасывая невероятные и менее вероятные объяснения. Как делать это, оперируя математическим языком, сформулировал Томас Байес (1702–1761). Благодаря Джуде Перлу в 1980-е годы байесовская вероятность получила широкое распространение и сегодня используется в искусственном интеллекте (нейронные сети и т. п.). Например, она лежит в основе идентификации жертв трагедий по ДНК, даже если известны ДНК только дальних родственников.

Формула Байеса помогает понять реальную вероятность правдивости поставленного диагноза. Например, при определении рака груди у женщин довольно часто встречается ложноположительный диагноз. В формулу подставляются доли реально больных раком, общего числа обследованных, тех, кто получил в результате обследование «положительный» и «отрицательный» результат. Вероятность, что при положительном диагнозе женщина больна раком, — менее одного процента (однако следует учитывать наследственность, возраст и т. п., здесь приводятся усредненные данные).

Модели, основанные на формуле Байеса, подходят, если: А ⇒ В ⇒ С. Однако нередки случаи, когда причинно-следственные связи скорее подходят под схему А ⇐ В ⇒ С или схему А ⇒ В ⇐ С.

Что делать с искажениями

В статистике есть такое понятие, как искажающий фактор. Например, если мы хотим выяснить, как пешие прогулки (X) влияют на продолжительность жизни (Y), то не стоит забывать, что фактор «возраст» (Z) влияет как на интенсивность прогулок, так и на продолжительность жизни (80-летний человек быстро не ходит и, вероятно, не проживет столько же, сколько 20-летний).  Поэтому при расчетах фактор Z «контролируют». Один из способов — рандомизированное контролируемое испытание (впервые было опробовано в 1923–1924 годах в сельском хозяйстве, когда поле делилось на квадраты и то или иное удобрение тестировалось в произвольном порядке). Но поскольку бывает сложно различить те факторы, которые лишь коррелируют между собой, и те, которые действительно влияют, то есть что-то «делают», порой случается, что ученые контролируют не те факторы (или даже те, влияние которых хотят проанализировать).

Существуют разные проявления Z-фактора.

Z напоминает искажающий фактор, но им не является. В этом случае Z — это медиатор, то есть данный фактор лишь объясняет, каким образом X влияет на Y (контролировать не надо).

В этом случае Z — это прокси медиатора M (контролировать не надо).

В этом случае не надо контролировать ни одной переменной при анализе влияния X на Y (нет ни одного фактора, который одновременно влиял бы на X и Y и поэтому не позволял бы установить чистое влияние первого на второй).

В этом случае необходимо контролировать B, если же такой возможности нет, то возможно только рандомизированное контролируемое испытание.

В этом случае никакой из факторов не надо контролировать (хотя нередко пытаются контролировать B, это называется M-bias).

В этом случае необходимо контролировать переменную C.

В табачном дыму не разглядеть ни зги

В первой половине XX века резко возросла доля курящих, это не только стало модно, но и промышленное производство сигарет позволило выкуривать их больше, курильщик больше не тратил времени на крутку. Табачные компании вели агрессивные рекламные компании. Сегодня научно доказано, что курение является причиной рака легких. Но на доказательства потребовались долгие годы. Первые исследования о вреде курения появились в конце 1940-х годов. Однако было два фактора, которые активно критиковали противники: (а) исследования были ретроспективными (то есть задавался вопрос «Насколько активно вы курили?» и была вероятность, что опрашиваемые отвечали неточно), (б) высказывалось предположение, что существует особый ген, который отвечает за то, что некоторые люди более склонны к раку при курении или же что этот ген ведет к более активному курению. Учитывая этическую сторону вопроса, рандомизированные эксперименты с контрольными группами были невозможны. Поэтому стартовали лонгитудные исследования, которые уже через пять лет показали, что курящие значительно чаще заболевали раком легких.

В процессе дискуссии о вреде табака в 1960-е годы было сформулировано определение, когда при наблюдаемой корреляции можно говорить о причинно-следственных связях (ведь в тот момент классическая статистика признавала только корреляцию и отказывалась видеть порой скрывающиеся за ней причинно-следственные связи) — так называемые критерии Хилла (могут наблюдаться лишь некоторые, изначально было пять факторов, позже добавили еще несколько).

• устойчивость: много исследований, проведенных в разных условиях, показывают один и тот же результат;

• сила: ассоциативная связь между действием и эффектом должна быть сильной;

• специфичность: один конкретный фактор вызывает конкретный специфический эффект;

• временная зависимость: эффект следует всегда за причиной;

• обоснованность: выявленная закономерность не противоречит другим знаниям в данной области, полученным в других исследованиях.

В итоге с 1970-х годов проводится активная политика по снижению доли курящих в развитых странах (запрет рекламы на ТВ и т. п.).

Кстати, спустя десятилетия исследователи выявили, что у некоторых людей есть ген, который и правда ответственен за более активное развитие раковых клеток при курении, однако его влияние столь незначительно, что объяснить им резкий рост рака легких в первой половине XX века нельзя.

Еще в 1960-е годы была обнаружена закономерность, что недоношенные дети курящих матерей чаще выживали, чем недоношенные новорожденные некурящих матерей. Неужели курение полезно?

Нет, на самом деле «вес новорожденного» неверно использовался как фактор, тогда как на самом деле он был медиатором, который мог указывать как на то, что (а) мать курила, (б) другие серьезные заболевания ребенка. Соответственно, в последнем случае смертность была выше, тогда как доля курящих рожениц была мала.

Несколько парадоксов

Графические схемы призваны помочь в тех ситуациях, когда сложно навскидку рассчитать вероятность событий, особенно если есть отвлекающие моменты или же появляется новая информация, которую человек забывает учесть и скорректировать расчет вероятности.

Парадокс Монти Холла. Иллюстрирует как раз последнюю ситуацию. На американском телешоу Let’s Make a Deal участник стоял перед тремя закрытыми дверями. За одной была машина, за двумя другими по козе. Первый ход был за участником. Он выбирал одну из дверей (дверь не открывали). Второй ход — ведущий открывал одну из двух других дверей, за которой не было машины. Третий ход — игрок выбирает из двух вариантов — открывает выбранную на первом шаге дверь или ту, которую не открыл ведущий.

Самое оптимальное — менять дверь на третьем шаге. Поскольку на первом шаге вероятность попадания была 1/3, но после получения дополнительной информации (шаг два) необходимо пересчитать вероятность, при смене двери она возрастает до 2/3. (Вероятность не менялась бы, только если бы ведущий открывал любую дверь — но он открывал всегда ту, за которой не было машины).

Если игрок выбирает первую дверь на первом шаге, рассмотрим все возможные случаи:

Парадокс Берксона. Наблюдается тогда, когда два независимых друг от друга события при условном наступлении третьего кажутся взаимосвязанными. Например, мужчинам в поиске, активно приглашающим заинтересовавших их женщин на свидания, может показаться, что красавицы особенно тупы. Но это не так, ведь страшненьких они просто не приглашают. Чаще всего этот парадокс наблюдается в медицинских исследованиях, когда, например, два редких заболевания положительно коррелируют среди попавших в больницу, хотя в населении в целом эта закономерность не наблюдается. Парадокс Симпсона. Случается, когда в двух группах данных наблюдается одинаковая зависимость (лекарство не помогает), но при их объединении зависимость противоположная (лекарство помогает). Так, 5% женщин в контроль-группе пережили инфаркт, тогда как в группе, принимающей лекарство, их было 7,5%. У мужчин аналогичная ситуация: 30% — в контрольной и 40% — в группе принимающих лекарства. Но при объединении множеств оказывается, что 22% среди контрольной группы против 18% среди принимающих лекарства пережили инфаркт. Это происходит, потому что выбор фактора «пол» неверен, тем более что среди мужчин инфаркты чаще.

Что делать, если не все известно

Все описанное выше было фактически о первой ступени лестницы причинно-следственной связи. Сейчас же речь пойдет о второй, когда можно сопоставить фактор do (Y) и просто (Y) или же ввести фактор действия в поле анализа. Еще раз о курении Как уже было сказано, ген, способствующий раку при курении, все же существует, и можно было бы задаться вопросом, как определить влияние курения на развитие рака, если никакой возможности замерить влияние данного гена нет?

В этом случае анализируется влияние курения на скопление смолы на легких, а также данные контрольной группы некурящих. Далее — вероятность рака при том или ином количестве смолы в легких. Таким образом вводится показатель «смола», на который прямого и значимого влияния гена быть не может, но на него влияет «курение».

Как заразиться холерой?

В 1854 году в Лондоне была вспышка холеры на Брод-стрит. В тот момент врачи не знали, каким образом происходит заражение, распространенным было мнение, что воздушно-капельным путем. Доктору Сноу удалось выявить, что холера распространяется через воду. Он проанализировал все случаи заражения и обнаружил несколько кейсов, когда живущие в других районах заразились, но они бывали на Брод-стрит редко — приезжали только за водой. При этом далеко не во всех домах улицы были случаи заражения.

Поэтому, говоря графическим языком, Сноу ввел внешнюю переменную, которая влияла на качество воды, — компанию, поставляющую воду. Оказалось, что улицу обслуживали две компании. Одна набирала воду выше Лондона, другая ниже Лондона по течению Темзы. Именно вода последней была заразной.

Как быть с сослагательным наклонением

Философы и представители различных наук нередко задумывались о том, как быть с рассуждениями о гипотетическом: как их записывать и можно ли это делать (если речь идет о статистике), вытекает ли из таких рассуждений, что гипотетические возможности реально где-то существуют (если мы можем себе их представить). Но для Джуды Перла это не столь важно. Принципиально, что человек постоянно оперирует такими идеями и выстраивает на этом основании свои действия (будь то вопросы этики или повседневных покупок). Поэтому основной вопрос сводится к тому, как оптимально записать такой ход мышления в схематическом виде, пригодном для моделирования и для искусственного интеллекта. В статистике были разработаны методы по заполнению ячеек со знаками вопросов. То есть: сколько бы зарабатывала Алиса, если бы окончила университет? Первый способ — найти полное совпадение, второй способ (если полного совпадения нет) — приближенное совпадение, третий способ — линейная регрессия.

Линейная регрессия следовала бы примерно такому подходу: за отправную точку была бы взята заработная плата человека без опыта работы и без образования ($65 тысяч), далее выявлено, что за каждый год опыта работы заработная плата увеличивается на $2,5 тысячи, потом прибавляется выявленная прибавка за образование — $5 тысяч. В итоге мы пришли бы к выводу, что при наличии университетского диплома Алиса зарабатывала бы $85 тысяч. Однако линейная регрессия не учитывает того, что длительность образования влияет на длительность опыта работы. Если бы это учитывалось в линейной регрессии, то ответ был бы $76 тысяч. Конечно, это также вероятностная величина, но она, похоже, более приближена к реальности, чем вариант, когда влияние образования на опыт работы не учитывается.

Что, если у фактора есть косвенное влияние?

Довольно часто идут дебаты о том, что важнее для высокого IQ ребенка — IQ родителей или их социальное положение. Поэтому нередко переменная «социальное положение» может контролироваться. В то же время очевидно, что «социальное положение» — это прокси (медиатор) косвенного (X на графике) и прямого воздействия переменной «IQ родителей».

Другой пример, когда расчеты эффективности производились без четкого понимания причинно-следственных связей и влияющих факторов. В 1990-х годах в чикагских школах, которые серьезно отставали от среднеамериканского уровня, была начата программа «Алгебра для всех»: все девятиклассники должны были посещать полный курс математики, необходимый для поступления в колледж.

Простой анализ успеваемости чикагских школьников (сравнение годов выпуска «до» и «после» начала программы) показал, что программа была успешной. Однако, как знает каждый преподаватель, очень сложно поддерживать успеваемость на высоком уровне, если в классе дети разного уровня и заинтересованности в предмете. Среда оказывает влияние. Когда исследователи учли данный фактор, то выяснилось, что программа имела менее очевидный положительный эффект, а рост оценок объяснялся только изменениями методологии преподавания в более ранних классах (в них также была реформа, которую не учли первые исследователи). Когда эти результаты стали очевидны, то программу «Алгебра для всех» реформировали: отстающие должны были посещать в два раза больше занятий, чем хорошо успевающие по предмету.

10 лучших идей на одной странице

1. Традиционные статистические методы в целом показывают корреляцию, но не причинно-следственные связи. Для отражения причинно-следственных связей в статистике отсутствует понятийный аппарат.  2. Корреляция периодически вводит нас в заблуждение, а также не помогает ответить на вопросы, для которых нужны эксперименты с контрольной группой (например, почему пациент выздоровел?). 3. Чтобы обогатить статистический аппарат, Джуда Перл предлагает представлять взаимосвязь событий графически (с помощью диаграмм со стрелками, где острие показывает, какой показатель «прислушивается» к другому).  4. Стремление традиционной статистики анализировать данные без учета жизненного опыта и багажа знаний анализирующего в корне неверно. Предложенная Джудой Перлом методика решает эту проблему. Здравый смысл — основа любого анализа. 5. История борьбы с курением показывает, что отрыв научных практик от здравого смысла и реальности может стать опасным для общества, ведь активная государственная политика могла начаться на несколько лет раньше и спасти жизни. 6. Здравый смысл необходим, но его недостаточно. Нужен четкий алгоритм анализа, поскольку человека легко ввести в заблуждение при расчете вероятности и других вещей, как показывают парадоксы (Монти Холла, Берксона, Симпсона). 7. Развитие статистики в предложенном Джудой Перлом направлении позволят оптимальнее реагировать на медицинские диагнозы и выбирать протокол дальнейшего лечения (как показывает пример с точностью диагнозов рака груди). 8. Здравый смысл необходим, поскольку понять, искажает ли какой-то фактор результаты или нет, можно только путем логического рассуждения. 9. Выявленные ошибки традиционной статистики Джуда Перл отчасти объясняет тем, что ученые опирались на философию позитивизма, согласно которой наука должна основываться на объективных фактах, цифрах. 10. Джуда Перл уверен, что развитие статистики в предложенном направлении позволит искусственному интеллекту выйти на новый уровень, поскольку до данного момента он базировался в основном на традиционном анализе данных — а это значительно отличается от алгоритма мыслительного процесса человека.