ОТ ИГНОРИРОВАНИЯ БАЗОВОГО УРОВНЯ К ТЕОРЕМЕ БАЙЕСА

Для успешного обучения и научной работы особенно важно уметь распознавать одну из разновидностей ошибки игнорирования базового уровня, которая может возникнуть при анализе редких или маловероятных событий.
Прочтите следующий абзац, посвященный сдаче анализа на редкое (вымышленное) заболевание — назовем его вымышлит. С учетом имеющейся информации, каковы шансы, что я страдаю вымышлитом?

Я прохожу обследование по поводу вымышлита, заболевания, поражающего одного человека из миллиона. У меня отсутствуют симптомы, но я читал об этом недуге в интернете и хочу убедиться, что со мной все в порядке.

Врач говорит, что если вымышлит имеется, то анализ всегда безошибочно выявляет его. Если человек здоров, то анализ точен на 99,9%. Прекрасно!

Я сдаю анализ и через пять минут получаю результат. Он положительный. Анализ показал, что у меня вымышлит. Ну почему мне так не везет!?

Интуиция подсказывает, что мне впору перепугаться. В данном случае наиболее распространенной реакцией, даже со стороны некоторых специалистов, будет оценить вероятность наличия у меня вымышлита в 99,9%.
Это ошибочное суждение, не учитывающее крайне низкую базовую распространенность недуга и эффект данного показателя в сочетании с точностью анализа.
Фактически я с вероятностью около 99,9% не болен вымышлитом. Как же так?

Чтобы ответить на этот вопрос, попробуем разобраться, что произойдет, если проверить на вымышлит миллион человек.
Мы знаем, что это заболевание в действительности встречается лишь у одного из миллиона, а также что анализ с гарантией выявит больного. Данный анализ по определению не может быть ложноотрицательным. Итак, мы имеем один гарантированный положительный результат из миллиона. Но это лишь начало логической цепочки.
Мы также знаем, что остальные 999 999 человек не больны и что для них анализ на 99,9% верен. Это означает, что он даст отрицательный результат у 999 человек из каждой 1000, но 1 на 1000, ошибочный, окажется ложноположительным. Таким образом, протестировав 999 999 человек, мы получим еще 1000 положительных результатов — все ошибочные.
В общей сложности мы получим 1 + 1000 = 1001 положительный результат на 1 000 000. Нам известно, что только один из них принадлежит человеку действительно больному вымышлитом, но не известно, кто он, иначе не потребовалось бы делать анализы. Отличить один истинно положительный результат от 1000 ложноположительных невозможно.

В общем, приходится заключить, что мой положительный результат, имеющий 1000 шансов из 1001, скорее всего, является ложноположительным: я почти на 99,9% могу быть уверен, что не болен вымышлитом.

Вы все еще удивлены?

Самый полезный метод решения подобных проблем предлагает теорема Байеса, названная в честь ее автора, английского философа и священника XVIII в. Томаса Байеса.
Его интересовала тема, которую он именовал «проблемой доктрины шансов», — какого пересмотра требуют текущие представления о вероятности в свете новых свидетельств.

Теорема Байеса начинается с наблюдения, что мы всегда отталкиваемся от исходного ожидания — базового уровня — возможности чего-либо. В «медицинском» примере базовое ожидание заключается в том, что человек, случайным образом выбранный из населения в целом, имеет один шанс из 1 000 000 страдать вымышлитом. При отсутствии дополнительной информации можно сказать, что мои шансы заболеть вымышлитом составляют один на 1 000 000, то есть вероятность этого равна 0,000001.

Установив базовый уровень, можно провести исследование с целью получения новой информации. В данном случае исследование принимает форму сдачи анализа.

Если нам посчастливилось получить на 100% точный тест, то информация, которую он приносит, — положительный или отрицательный результат — позволяет перейти от обоснованного мнения к убежденности.

Чаще всего, однако, приходится иметь дело с различными степенями неопределенности.
В первоначальном сценарии отрицательный результат обеспечивает полную уверенность.
Описанный мной анализ не может быть отрицательным, если человек, сдавший его, действительно болен вымышлитом (в отличие от многих реальных тестов). Но положительный результат лишь повышает уровень нашей уверенности. Чтобы точно рассчитать это повышение, нужно взять только что полученную информацию — мой положительный результат конкретного анализа — и пересмотреть ожидания с учетом знания обо всех задействованных вероятностях. Вот что мы получим.

Шансы любого отдельно взятого человека заболеть вымышлитом = 1 / 1 000 000 = 0,000001
Шансы больного вымышлитом получить положительный результат анализа = уверенность = 1
Шансы получения положительного результата любым человеком = 1001 / 1 000 000 = 0,001001

Теорема Байеса имеет следующую общую форму, где А есть первый фактор, интересующий нас (наличие вымышлита), а В — дополнительный фактор, влияние которого мы хотим учесть (положительный результат анализа):
Вероятность (А, если В истинно) = (Вероятность А × Вероятность В, если А истинно) / Вероятность В

Подставив числовые показатели, получим уточненную вероятность того, что, с учетом положительного результата анализа, я действительно болен вымышлитом:
(Вероятность того, что любой человек болен вымышлитом × Вероятность больного вымышлитом получить положительный результат анализа) / Вероятность получения положительного результата любым человеком = (0,000001 × 1) / 0,001001 = 0,00099900099 (примерно 1 из 1000)
Эти числа сложны для восприятия из-за большого количества разрядов.

прим. :
Ложноположительный результат:
положительный результат теста вследствие ошибки, тогда как предмет тестирования в действительности отсутствует (например, вы не беременны, однако тест на беременность утверждает обратное).

Ложноотрицательный результат:
отрицательный результат теста, полученный вследствие ошибки, тогда как предмет тестирования в действительности имеет место (например, вы беременны, но тест на беременность утверждает обратное).

Истинно положительный результат:
положительный результат теста, дающий верную информацию о предмете тестирования.

Теорема Байеса:
Метод вычисления вероятности события на основе знания о предыдущих событиях, позволяющий избежать ошибки игнорирования базового уровня и верно оценить шансы.

Базовый уровень:
исходная вероятность того, что предмет рассмотрения имеет место.