Футбол и математика. Часть 2

Сегодня мы продолжим изучать и сегодняшняя тема это распределение Пуассона.

Поехали:

Если вы станете мыслить категориями моделирования случайных процессов и распределения Пуассона, то вы будете видеть их повсюду. Если вы изучаете статистику в университете, лучшая (и единственная) шутка лектора заключается в том, что прибытие автобуса также попадает под распределение Пуассона. Автобусная компания отправляет транспорт по расписанию, но на его путь влияет множество различных факторов: старик слишком долго заходит в автобус или велосипедист занял полосу для движения автобусов. Еще один классический пример – количество ламп накаливания, которое вам приходится менять в доме ежегодно. Каждый раз, когда вы включаете свет, есть маленький шанс того, что элемент перегорит. Суммируйте все подобные случаи, и вы получите распределение Пуассона.

Это распределение было названо в честь Симеона Дени Пуассона – француза, который первым описал это явление в начале XIX века. Однако его работа делала акцент на математические уравнения, лежащие в основе распределения, не рассматривая его использование для моделирования на практике. В том смысле, в котором использую его я, распределение применял поляк Ладислав Борткевич, который работал в Германии в 1898 году. Он исследовал два набора данных. Первым был набор жутких статистических данных за 24 года о самоубийствах детей в возрасте до десяти лет. Второй (лишь немногим менее шокирующий) касался солдат, которые умерли после того, как их случайно лягнула или иным образом ударила лошадь. Борткевич в течение двадцати лет изучал по четырнадцать полков ежегодно, отмечая количество солдат, убитых таким образом. Очевидно, он не понял, что всего несколько лет назад была создана Футбольная лига Англии. Этот факт мог предоставить ему все нужные данные без необходимости вникать в статистику смерти Германии.

В обоих наборах данных Борткевич нашел значительное соответствие с распределением Пуассона. Смерти от ударов лошади были редкими. Из 280 полков, которые он изучал, в 144 не было ни одного смертельного случая. Но в двух невезучих полках были зафиксированы по четыре смерти за один год. Используя распределение Пуассона, Борткевич смог показать, что в этих полках не обращались с лошадьми хуже, чем в других, – в тот год им просто не повезло. Возможно (а возможно, и нет), футбол важнее вопросов жизни и смерти, но все три подчиняются одним и тем же правилам.

Сравнение с распределением Пуассона – одна из первых вещей, которые я делаю, когда получаю новые данные. Иногда коллега приходит в мой кабинет с недавно собранными экспериментальными результатами. «Странно, – говорит он. – Большая часть рыбы никогда не плавает вблизи хищника, но есть одна рыбина, которая проплыла мимо него четыре раза! Она должна быть очень смелой или что-то в этом роде». Спустя три минуты я черчу распределение Пуассона и накладываю его на данные моего коллеги. «Нет, твоя рыбина не была особенно смелой. Это была всего лишь статистическая необходимость». Быть преследуемым хищником раз за разом равносильно разгромному поражению со счетом 5:0. Плохо, когда это случается, но это может произойти с каждым.

Распределение Пуассона является нашим первым примером математической аналогии. Оно работает во многих контекстах. Оно работает для футбольных матчей, для лампочки и для смертей от удара лошади. Всякий раз, когда есть основания предположить, что события могут произойти неожиданно, в любое время и независимо от того, сколько событий уже произошло, следует ожидать распределения Пуассона.

Если отойти от футбола, современное использование распределения Пуассона в большинстве своем продолжает традицию, начало которой положил Борткевич. У статистиков, похоже, есть извращенное очарование смертью, травмами и несчастными случаями. Или, может быть, мы просто платим им за решение тех проблем, которые могут случиться с нами. Таким образом, нам не придется о них думать. Каковы бы ни были причины их интереса к неудачам, статистики обнаружили распределение Пуассона в автомобильных авариях, столкновениях с грузовиками, травмах головы, отказах двигателей в самолетах, банкротствах, самоубийствах, убийствах, несчастных случаях на работе и количестве опасных строительных объектов. Они даже обнаружили его в количестве войн с 1480 по 1940 год. И когда они заканчивают смертями и травмами, то ищут распределение Пуассона в опечатках, производственных дефектах, сбоях в сети, вирусных атаках на компьютеры и разводах. Будь то смерть или разрушение, невезение или ошибки – везде можно обнаружить одну и ту же закономерность.

В 2015 году Кристиан Томасетти, прикладной математик, и Берт Фогельштейн, доктор медицины, использовали статистическую аргументацию для доказательства того, что две трети случаев заболевания раком были вызваны «невезением». Хотя некоторые виды рака могут быть связаны с выбором образа жизни (например, рак легких, вызванный курением), это еще не все. Более важная часть заключается в неизбежных клеточных делениях, которые происходят в наших телах. Каждый раз, когда клетка делится, существует малая вероятность генетической мутации, которая может вызвать рак. Кристиан и Берт обнаружили, что рак с большей вероятностью образуется в тех частях тела, где клетки делятся быстрее.

Это исследование вызвало некоторые споры. Если рак такой непредсказуемый, то почему мы должны тратить так много денег на исследование причин его появления? Чтобы оправдать использование термина «невезение» и лучше объяснить свои выводы, Кристиан и Берт провели аналогию с автомобильными авариями. Они сказали, что чем больше времени вы проводите в машине, тем больше вероятность того, что попадете в аварию. Стиль управления автомобилем влияет на вероятность, но время за рулем также очень важно.

Параллель с футболом работает так же хорошо, если не лучше. Вы можете думать о каждом делении клеток в вашем теле как об отдельной минуте футбольного матча. Когда ячейка делится, есть (очень) крошечный шанс случайной раковой мутации, так же как есть (гораздо больший) шанс пропустить гол в футбольном матче. Именно в этом смысле рак может считаться невезением. Иногда наша команда не пропускает ни одного мяча за игру; хотелось бы надеяться, что мы проживем нашу жизнь без того, чтобы заболеть раком. Хотя иногда мы проигрываем потому, что соперник был силен, никто не может отрицать, что удача играет важную роль в любом конкретном матче. Наше здоровье похоже на субботний день, когда вы наблюдаете за игрой с трибун – не все голы можно предотвратить.

Не все происходящее с нами сводится к случайности. Многие болезни можно предотвратить, если мы выберем здоровый образ жизни, а пропущенные голы часто случаются из-за плохой защиты. Но осознание того, что многое из происходящего с нами несет случайный характер, иногда может помочь смириться с вызовами, которые бросает нам жизнь. Не все в жизни можно предсказать.

Именно непредсказуемость футбольного матча от одной минуты к другой и создает распределение Пуассона по прошествии 90 минут. Мы знаем среднее количество голов, забитых в матче, но их время непредсказуемо. Как итог – некоторые результаты становятся намного более вероятными, чем другие. Парадокс здесь заключается в том, что эти итоги объясняются случайностью. Тот факт, что голы случаются произвольно во времени, делают возможным предсказание закономерности результатов. Эту идею очень сложно понять, но это правда. Факт случайности какого-либо события помогает нам объяснить это и предугадать, как часто оно будет происходить. Случайность позволяет нам делать всевозможные прогнозы о будущем.

Математики используют этот трюк постоянно. В начале нового футбольного сезона, в преддверии чемпионата мира или премии «Оскар» в газетах часто пишут о «гениальном» математике, который предсказал вероятность победы определенных команд или фильмов. Эти прогнозы зачастую выглядят обоснованными, а иногда они оказываются и верными. Но откуда они берутся?

Я открою вам секрет. Эти гении обычно используют распределение Пуассона и немного справочной информации о командах или фильмах. Для моделирования результатов в футбольных матчах используется такая хитрость – рассчитать показатели забитых и пропущенных голов для каждой команды и затем симулировать матчи между ними. Например, в Премьер-лиге сезона-2012/13 «Арсенал» забивал в среднем 2,47 мяча в домашних играх и 1,32 в матчах на выезде. Пропускала команда 1,21 гола дома и 0,74 на выезде. Собирая такую статистику для каждой команды, а затем моделируя игры между всеми парами, мы можем создавать прогнозы на предстоящий сезон. Пример такого предсказания приведен в таблице 1.1, где я использовал данные из сезона-2012/13 и модель, чтобы спрогнозировать четверку лучших в сезоне-2013/14.

Этот прогноз не слишком разошелся с тем, что было на самом деле. В реальности «Манчестер Сити» стал чемпионом, оторвавшись на два очка от «Ливерпуля», а «Челси» занял третье место. Но эта таблица – лишь один из многих вариантов четверки, который я получал при нажатии кнопки «Запустить» на компьютере. Каждый раз, когда я запускаю симуляцию, команды встречаются друг с другом дома и на выезде, счет матча выбирается случайным образом на основе средних показателей забитых и пропущенных голов, и я составляю таблицу на основе результатов. Каждый запуск дает разные результаты, иногда совсем разные. В качестве еще одного примера можно привести таблицу 1.2.

Как фанату «Ливерпуля», этот вариант мне нравится намного больше. Он отображает альтернативную реальность, в которой Стивен Джеррард не поскользнулся в решающей игре против «Челси», а «Ливерпуль» выиграл свой первый чемпионат почти за 25 лет. Джеррард перенес бы позитивную энергию на чемпионат мира, где Англия победила, а сам Стиви Джи был бы посвящен в рыцари. Существует множество возможных альтернативных реальностей, поэтому я могу выбрать ту, которая мне больше всего нравится.

К сожалению, объективный ученый во мне чувствует, что ему необходимо сообщить все результаты симуляций. Всего пара минут уходит на то, чтобы на моем ноутбуке запустить симуляцию Премьер-лиги десять тысяч раз, и каждый раз я получаю разный результат. Какой бы интересной ни была каждая из вариаций, по отдельности они несущественны. Важно обобщить, что происходит во всех десяти тысячах. Как часто та или иная команда выигрывает титул? Мы видим, что «Ливерпуль» стал чемпионом всего в 11,5 % симуляций. «Манчестер Юнайтед», победивший в лиге сезоном ранее, выиграл в 26,2 %. «Челси» набрал 19,2 %, «Арсенал» – 17,6 %, «Манчестер Сити» – 12,8 % и «Тоттенхэм» – 6,0 %.


_______________________________________________________________________________

Отступление: вот тут как раз говорится о том что делаю я при попытке моделировании с помощью Монте Карло одного матча, я делаю не одно моделирование а 20 тысяч моделирований одного матча и лишь подведя итоги всех этих моделирований получаю вероятности того или иного исхода!

_______________________________________________________________________________

Оглядываясь назад, мы можем увидеть, что эти предсказания были неверными. «Манчестер Юнайтед» сменил тренера и провел ужасный сезон. «Манчестер Сити» и «Ливерпуль» доминировали, обе команды забили более ста голов. Но дело не в этом. Я, конечно, не собираюсь утверждать, что уже создал лучшую модель футбола. Мы только в начале нашей истории, и я не хотел бы раскрывать все карты сразу.

Важным моментом является вот что. Хотя эта модель основана на случайности и не совсем правильная, она в то же время не является абсолютно неправильной. Предполагаемыми чемпионами становятся преуспевающие команды, а итоговая таблица выглядит похожей на реальные результаты сезона или по крайней мере не слишком отличается от ожидаемых. И мы получили это без существенных размышлений. Мы просто симулировали голы в случайном порядке (причем у каждой команды был свой показатель забитых голов) и получали финальную топ-четверку. Это почти полная противоположность непредсказуемому футболу, который описывал Пол Гаскойн. Футбол очень предсказуем. Более 400 игроков на протяжении всего сезона Премьер-лиги каждую неделю бегают и пинают мяч, а побеждает все равно большой клуб из Лондона или Манчестера.

_________________________________________________________________________________

Отступление: а вот тут как раз говорится о том что с помощью моделирование мы не находим 100% прогноз в простонародии ЖБ, мы находим именно валуйный результат который даст на дистанции нам возможность заработать, т.е. все наши смоделированные результаты не будут сбываться потому что существует тысячи вариантов, но найденный нами вариант будет самым вероятным, поэтому и говорю всегда что валуй это игра на дистанции и дистанция все выравнивает. Простой пример это монетка, подбрасывание которой все из вас знают имеют вероятность 50 на 50 выпадания орла и решки. Но если Вы подбросите ее например 10 раз это не значит что 5 раз выпадет то и другое может даже выйти 2 и 8 или 1 и 9, но если Вы ее подбросите к примеру 100 раз уже можем получить лучше результаты в районе 35 и 65 или 40 и 60, а когда Вы ее подбросите 1000 раз уже результаты будут очень-очень близки приблизительно 450 на 550 или 480 на 520! Дистанция все выравнивает так и в ставках!

________________________________________________________________________________

Прогнозирование, основанное на случайности, – это основное применение математики в обществе сегодня. Пока вы ожидаете оператора на линии, аналитик уже изучил скорость, с которой звонки поступают в справочную службу и выяснил, как долго люди готовы ожидать. К тому моменту, когда банк предоставляет деньги маленькому бизнесу или новому домовладельцу, он уже определил вероятность банкротства и применил распределение Пуассона, чтобы выяснить, со сколькими банкротствами он столкнется в ближайшие годы.

Прогнозирование не сможет точно сказать вам, какой клуб победит в чемпионате, как долго вы будете ожидать на линии и какая компания станет банкротом. Речь идет о частоте прошлых событий для расчета вероятности событий в будущем. Все эти предсказания возникают из математической модели, основанной первоначально на немецких солдатах, которых лягают лошади. Если вам нужна простая аналогия, вы можете сказать, что ожидание гола «Ливерпуля» похоже на ожидание автобуса номер 19 в праздничный день – сначала нет ни одного, а затем два или три приходят один за другим. Благодаря этой модели я сделал эту аналогию полезной. Математика позволяет нам выявить особенности, связанные с прибытием автобуса, футбольными матчами, банкротствами, раковыми заболеваниями и телефонными звонками. Затем это позволяет нам предсказать, как часто все эти события будут происходить.

Даже когда голы забиваются случайным образом, математика может найти способ сделать прогнозы. Но Гаскойн прав. Суть реальных событий в футболе заключается не в случайности, а в ее преодолении. Футбол – это игра о неудачах и волевых победах. Когда Алекс Фергюсон ушел в отставку в 2013 году, а Дэвид Мойес привел «Манчестер Юнайтед» к своему худшему сезону за последние 20 лет, это не могло быть объяснено невезением. Когда сборная Германии разгромила бразильцев в полуфинале чемпионата мира, забив пять голов за восемнадцать минут, это было не просто случайной последовательностью голов. Бразилия рухнула под давлением, а Германия воспользовалась этим.

Успех Ферги или немецкой сборной нельзя понять с точки зрения случайности: мы должны узнать все ее внутреннее устройство. Ирония заключается в том, что неслучайные события гораздо сложней понять и предсказать, – именно поэтому они намного интересней.

В моей исследовательской работе отсутствие случайности создает самые большие проблемы. Мой коллега-биолог возвращается ко мне через несколько недель и говорит: «Когда вокруг нет хищника, рыбы распределяются наугад; но когда видят хищника, они образуют сплоченную вращающуюся мельницу». Вот теперь это серьезная головоломка. Инициатором перестроения является одна рыба? Как быстро вращается мельница и есть ли у определенных рыб предпочтительные позиции? Почему мельницы – лучшая формация для уклонения от хищника? Вопросы становятся интересней, когда модель случайного выбора терпит неудачу.

Задача прикладного математика – выбрать правильную модель для интересующего вопроса. Если нас просто интересует прогнозирование забитых голов за сезон, будет достаточно и случайности.

продолжение следует ....