Почему?
При слове «статистика» 8 из 10 людей начнут позевывать, а девятый наверняка лишь изобразит интерес. Но статистика может быть и интересной, например, если она подается популярным языком, а не сухим языком науки. Так и решил исследователь Джуда Перл, когда в соавторстве с Даной Маккензи решился опубликовать один из собственных трудов по статистике. Охват науки статистики огромен, предмет ее исследований поражает– от измерения роста мирового народонаселения до популярности очередной сыворотки для лица. Можно сказать, что нас окружает все то, что для статистики представляет интерес. Однако, далеко не вся статистика является достоверной, и в этой науке существуют псевдоисследования, полные допущений. Далеко не все исследования можно считать правильными. Но как же разобраться, что верно, а что нет? Здесь на помощь и приходит прекрасная книга Джуды Перл. Совсем уж легкой для чтения ее не назовешь – в ней много формул. Однако, постараемся понятным языком донести основной смысл книги.
Что не так со статистикой?
В XXI веке получил свое развитие искусственный интеллект, построенный на базе причинно-следственный связей. Получил развитие искусственный интеллект и на базе глубинного обучения, однако, механизм его работы не вполне понятен ученым и самим разработчикам.
Итак, традиционная статистика имеет ряд методов, которые уже устарели. Так считает автор книги. Почему? Потому что традиционные методы основаны не на причинно-следственных связях, а на корреляции. Понятное дело, точность таких методов оставляет желать лучшего. Корреляция часто отражает не взаимосвязь вещей, но обычные совпадения. Петух кричит на рассвете, но не он же причина того, что светает. Человека интересуют вопросы из серии «Что, если?», «Какова?» и подобные. Как правило, человека интересуют общие и глобальные вопросы, ответ на которые не может проистекать из эксперимента с контрольными группами. Но как можно усовершенствовать статистику и удовлетворить любознательность человека? Джуда Перл предлагает добавить в аппарат статистики диаграммы со стрелками. Острие одной стрелки указывает на то, какой показатель подчинен другому. Новшеством назвать стрелочки сложно, однако для статистики они будут очень полезны. Эти стрелочки отражают третий, высший уровень развития статистики на сегодняшний день. Первый уровень развития, кстати, это корреляция, основанная на наблюдении или анализе больших данных. Второй же уровень – это исследования, проводимые на контрольных группах. Третий уровень – это ответы на те самые вопросы вроде «Что, если?»
Корреляция – это не причинно-следственные связи.
Одним из первых исследователей наследственности можно назвать английского антрополога, географа и психолога Френсиса Гальтона. Свои выводы относительно генетики антрополог обосновал исследованием роста отцов и их сыновей. Гальтон же и открыл т.н. эффект «регрессии к средним величинам». То есть вероятность рождения у высокого отца сына, который будет пониже ростом, велика. И наоборот. Лучшее подтверждение существованию эффекта - это то, что население земли до сих пор не одного роста. Идея получила название «двойной» корреляции. Двойная корреляция возникает, например, если при исследовании можно взять возраст сына или отца и попытаться определить продолжительность роста как отца, так и сына. Философу и математику Карлу Пирсону (1857-1936) открытый эффект показался решением многих проблем научной жизни. Пирсон с помощью открытого эффекта задумал вывести на новый этап все науки – как технические, так и гуманитарные. Пирсон основал журнал Biometrica, который до сей поры является очень авторитетным изданием из области статистики. Пирсон же до конца жизни считал, что «корреляция не показывает какие-либо причинно-следственные связи.» Противников своей точки зрения Пирсон старался заткнуть.
Правда, легким деспотизм Пирсона не всем пришелся по душе, в том числе, и американскому генетику, статистику Сьюаллу Райту (1889-1988), который в своих исследованиях опирался на причинно-следственные связи. Например, однажды с помощью идеи о причинно-следственных связей Райт проанализировал окрас морских свинок. Все выводы о возможном окрасе свинки Райт основывал на окрасе ее предков. Однако, идеи Райта на то момент, не очень прижились. В то время в статистической науке были популярны философские идеи позитивистов, которые гласят о том, что результат должен отражать объективные данные и числа. А эксперимент с окрасом морских свинок нельзя назвать позитивистским, поскольку за исследователем оставалось конечное право включать или не включать тот или иной фактор в список, влияющий на окрас шкуры свинки.
Джуда Перл сторонник учета именно причинно-следственных связей. Потому как объективные данные зачастую лишены здравого смысла и способны лишь поднять очень важный вопрос: «Насколько наука субъективна?»
О формуле Байеса.
В основе формулы Байеса лежит необходимость отмести наименее вероятные события. Сформулировал формулу Томас Байес (1702-1761). В 80-е годы XX века Джуда Перл приложил немало усилий для популяризации формулы. Сегодня же эту формулу используют повсеместно, в том числе и в проектировании искусственного интеллекта. К примеру, этой формулой пользуются при определении жертв трагедий по ДНК, используя ДНК даже очень дальних родственников.
Используют формулу Байеса и для того, чтобы установить правильность поставленного диагноза. Например, в случае рака груди у женщин часто ставят ложноположительный диагноз. В формулу Байеса подставляют долю реально больных раком, общее число обследованный и тех, кто получил в результате обследования положительный и отрицательный результат. Формула показывает вероятность того, что при положительном диагнозе женщина больна раком. Вероятность составляет менее процента.
Причинно-следственные связи, основанные на формуле Байеса часто выглядит так: A --> B -->C. Но бывают и иные модели, например, A<--B-->C или A -->B<--С.
Об искажающем факторе
В статистике встречается такое понятие как искажающий фактор. Вот есть полезные для здоровья пешие прогулки (X), вот они влияют на продолжительность жизни (Y). Казалось бы, все просто. Однако, на продолжительность жизни и продолжительность пеших прогулок влияет кое-что еще– возраст человека (Z). Ученые знают о факторе Z и стараются его учитывать. Один из способов учета фактора – рандомизированное контролируемое испытание. Однако, фактор Z может быть не одинарным влияющим на ситуацию. Иногда очень сложно определить чисто коррелирующие факторы, как и те, которые реально влияют на что-то. Бывает и так, что ученые выбирают неверные факторы. Z-фактор может проявлять себя по-разному. Может в случае, когда его надо учитывать, контролировать( X à Z à Y).
Однако, Z может только напоминать искажающий фактор, не будучи им в самом деле. Например, в данной схеме X à M àY, Z является только
|
Z
медиатором, его контролировать не надо.
Немного примеров выбора неверного фактора.
Начиная с 1900-х гг. доля курящих в мире резко возросла, и не только благодаря моде на курение, но и потому, что промышленность позволяла более не закручивать табак в бумагу, а сразу употреблять готовый продукт. Сегодня, конечно, каждый знает, что курение является одной из причин рака легких. Но в то время табачные компании рекламировали сигареты как лекарство едва ли не от всех болезней на свете, первые серьезные исследования о вреде курения появились только в конце 1940-х гг. Однако, и их нельзя было назвать идеальными. Ученые выбрали два шатких фактора, за что, соответственно, были быстро раскритикованы. Первый фактор – ретроспективность исследований (то есть вопросы «Насколько активно Вы куриЛИ?»). Второй фактор – предположение, что существует ген, который отвечает за то, что есть люди более уязвимые к раку при курении или более склонные курить больше. Исходя из этических соображений, рандомизированные эксперименты с контрольными группами не проводились, исследователи вместо этого воспользовались лонгитудными исследованиями. В итоге через пять лет исследования показали, что заболеваемость раком среди курящих значительно выше, чем среди некурящих.
В 1960-х гг. дискуссия о вреде табака продолжалась. Традиционная статистика все еще не желала признавать полностью роль причинно-следственных связей, но и методология корреляции была существенно дополнена т.н. критериями Хилла. Именно критерии Хилла позволяют найти среди множества корреляций причинно-следственные связи. Изначально критериев быть пять, но позже были добавлены новые.
1. Сила: действие и эффект должны сильно ассоциироваться друг с другом
2. Временная зависимость: эффект всегда следует за причиной, а не наоборот.
3. Устойчивость: множество исследований, разные условия их проведения, но один и тот же результат.
4. Специфичность: один конкретный специфический эффект вызван одним конкретным фактором.
5. Обоснованность: найденная закономерность не должна противоречить другим знаниям в этой области, открытым в других исследованиях.
Причинно-следственные связи между употреблением табака и ростом заболеваемости раком легких были выявлены и уже с 1970-х гг. проводится активная политика по снижению пропаганды курения. Кстати, отдавая дань ученым 1940-х – ген, ответственный за более активное развитие раковых клеток при курении таки был выявлен. А в 60-е еще и обнаружили то, что недоношенные дети у курящих матерей чаще выживали. «Бред»- подумаете Вы. И будете правы, поскольку в данном случае «вес новорожденного» не был контролируемым фактором, а был всего лишь медиатором, который указывал либо на то, что ребенок болен чем-то, либо на то, что мать курила. Понятное дело, при разнообразных детских заболеваниях смертность от болезней была куда выше, нежели при курящих матерях. Курящих рожениц встретить не так-то и просто.
О парадоксах статистики
Парадокс Монти Хилла. На американском шоу Let’s Make a Deal участнику предложили открыть три двери. За одной из дверей была машина, за другими – по козе. Участник делал первый ход и выбирал первую дверь. (дверь, кстати, не открывали). На втором ходе ведущий открывал одну из дверей, за которой не было машины. На третий ход участник был должен открыть либо дверь из первого хода, либо ту, что не открыл ведущий. Конечно, лучшей тактикой было бы поменять дверь на третьем ходе. На первому ходу вероятность открытия двери с автомобилем была 1/3, однако, после получения информации на втором ходу вероятность открытия заветной двери при смене варианта возросла до 2/3. Вероятность бы не изменилась, если бы ведущий открыл не одну из дверей с козами, а любую дверь.
Парадокс Симпсона. Итак, в двух группах данных существует одинаковая зависимость (лекарство не действует), а при объединении групп в одну зависимость противоположная (лекарство действует). В группе женщин, не принимающих лекарство, доля переживших инфаркт составила 5%, в то время как в группе, принимающей лекарство, доля переживших инфаркт составила 7.5%. У мужчин наблюдалось нечто похожее – по 30% и 40% соответственно. Почему так получилось? Не потому, что лекарство не помогает, а потому, что выбор фактора «пол» был неверным.
Парадокс Берксона. Возникает тогда, когда есть два независимых друг от друга события, однако, при добавлении третьего, первые два кажутся взаимосвязанными. К примеру, мужчины активно приглашают на свидания понравившихся им женщин, а после свидания заявляют, что все красавицы особенно глупы. Загвоздка в том, что некрасивых на их взгляд они просто не приглашали.
Вместо вывода.
Так зачем же нам нужна статистика, основанная на причинно-следственных связях? Для лучшего понимания своего мышления и понимания природы искусственного интеллекта. Статистика бурно развивается, и это позволит уже в очень скором времени ИИ выйти на небывалые высоты, будет найдена некоторая схожесть в мыслительных процессах более совершенного ИИ и человека.