От судьбы к вероятности: как А.А. Марков изменил представления о случайности

Марков Андрей Андреевич

В обычной жизни простой обыватель, всегда подвластен обстоятелсьтвам: плохая работа, не так сложился день, и вообще... жизнь как-то не клеется. В бытовых объяснениях удач и неудач часто фигурируют «рок», «судьба», «карма». Такая оптика снимает ответственность: если всё предрешено, рациональный выбор бессмыслен. В начале XX века Андрей Андреевич Марков предложил иную перспективу: там, где мы подозреваем мистику, работает статистическая закономерность. Случайность — не пустота между причинами, а предмет строгого анализа.

Марков не был кабинетным схоластом. Ученик П. Л. Чебышева, автор работ по теории чисел, приближению функций и проблеме моментов, он сознательно перенёс центр тяжести в теорию вероятностей и статистику — туда, где сталкиваются неопределённость, данные и проверяемые предсказания. Его полемика с П. А. Некрасовым лишь обострила главный вопрос: можно ли выйти за пределы независимых «монеток» и описывать закономерности в зависимых последовательностях событий?

А. А. Марков был не просто учёный, ничего не видящий за пределами своих узких интересов, это был учёный-боец. Всю свою жизнь он вступал в яростную борьбу со всем, что шло вразрез с его научными принципами. Его при этом не останавливали ни лица, против которых ему приходилось выступать, ни возможные последствия для его собственной карьеры [1]

Немного истории..

Тема случайности и совершенства мира с теологичсекой точки зрения беспокоила умы ученых начиная с конца 17 века, дин из основоположников теории вероятностей Якоб Бернулли (1654–1705) [2], в своих работах, о зарождении статситики, как науки об азартных играх и сочетаниях, и сводилась работы по детерминированными ситуациям (ситуацяим, которые взаимосвязаны) как промысел некий божественных сил: Всё, что под Солнцем существует или возникает — прошедшее, настоящее или будущее, — само по себе и объективно всегда имеет высшую степень достоверности. Относительно событий настоящего или прошедшего это ясно; ибо тем самым, что они существуют или существовали, они не могут быть несуществующими или несуществовавшими. Но нельзя сомневаться и относительно событий будущего, которые, равным образом, если и не по некоторой неизбежной необходимости, то в силу Божественного предвидения или предопределения, не могут не осуществляться в будущем; ибо если не наверно случится то, чему определено случиться,
то непонятно, как может остаться непоколебленной хвала всеведению и всемогуществу величайшего Творца. Каким образом, однако, эта достоверность будущего может быть согласована со случайностью или свободой вторичных причин, — об этом пусть спорят другие; мы же не будем касаться чуждого нашим целям». Бернулли дает определение категориям: вероятность, необходимость, нравственная достоверность. Случайности как объективного явления нет, так как мир детерминирован волей Творца. «Вероятность» это есть степень достоверности.

Английский математик, член Лондонского королевского общества Абрахам де
Муавр (1667–1754) в знаменитом мемуаре «Учение о шансах» (1718, 1738) рассуждал о том, что шанс мало нарушает ход событий, которые были при естественном установлении задуманы наступить или не наступить в соответствии с некоторым детерминированным законом, что есть прямое указание на действие Божественного Промысла: «хотя шанс приводит к неправильностям, все же соотношение шансов окажется неограниченно большим в пользу того, что с течением времени эти неправильности не окажут никакого влияния на восстановление того Порядка, который естественно вызывается первоначальным Замыслом… в устройстве вещей существуют определенные законы, в соответствии с которыми происходят события, не менее очевидно, что эти законы служат мудрым, полезным и благодетельным целям сохранения непоколебимого порядка во вселенной, размножения видов живых существ и обеспечения такой степени счастья способному на ощущения роду человеческому, какие соответствуют его состоянию. Будучи глубоко верующим христианином, Муавр в своих математических занятиях нашел способ обосновать присутствие Божественного Промысла там, где остальные видели только случайность.

Постепенно, к началу XIX в., из работ по теории вероятностей исключаются те-
ологические рассуждения, хотя философско-метафизические установки, определяющие доктринальную позицию ученых, остаются. Так, выдающийся французский математик Пьер Симон Лаплас (1749–1827), существенно продвинувший приложения теории вероятностей к астрономическим и демографическим исследованиям, исходил из принципа детерминизма, что исключало онтологическую реальность случайности.

В процессе развития, математичсекой статситики, от исследования азартных игр, акцент был к началу XX века обращен на доказательства закона больших чисел, которые опирались на независимость испытаний. Марков сделал шаг в сторону реальности: признал, что зависимость неизбежна, но потребовал минимальной и проверяемой формы памяти — зависимости только от текущего состояния. Так появились цепи Маркова. В знаменитом статистическом эксперименте с «Евгением Онегиным» он показал, что даже язык — не хаос, а структура: вероятность гласной после согласной отличима от случайной.

Ключевой вывод: чтобы предсказывать, не нужно знать всю историю — достаточно корректно зафиксировать состояние и вероятности переходов. Это резко удешевляет моделирование и делает случайность вычислимой.

Представьте систему с конечным набором состояний (погода: «ясно», «дождь»). Для каждого состояния известны вероятности перехода в другие состояния на следующем шаге. Марковское свойство гласит: будущее зависит от настоящего и не зависит от более далёкого прошлого, если настоящее уже учтено. В результате длинные траектории становятся управляемыми статистически: можно вычислять доли времени в состояниях, средние выигрыши, времена до событий.

От цепей к принятию решений: МППР (MDP)

Один шаг отделяет наблюдателя от агента. Если добавить действия и вознаграждение, получаем марковский процесс принятия решений (MDP): агент выбирает действие, действие влияет на переход и на награду, цель — максимизировать ожидаемую суммарную награду. Эта конструкция — стандартный язык задач «планирования под неопределённостью».

Почему именно МПП(MDP) стал базовым? Он минимально достаточен: фиксирует динамику мира, интерфейс управления и критерий качества. Всё, что сложнее (частичная наблюдаемость, неизвестная динамика, иерархия целей), — надстройки над MDP.

В начале XX века Андрей Андреевич Марков предложил иной способ смотреть на случайность. Он показал: там, где мы привыкли видеть произвол обстоятельств, есть статистическая структура, которую можно описать, оценить и использовать для прогноза. Марков пришёл к этому через конкретную математическую проблему. Классические доказательства закона больших чисел опирались на независимость испытаний — на «монетки», которые «не помнят» прошлое. Но реальный мир зависим: погода тянет за собой завтрашнюю погоду, привычки — завтрашнюю работоспособность, экономические решения — будущие цены. Марков предложил минимально необходимую память: пусть будущее зависит только от текущего состояния, а не от всей истории. Так родились марковские цепи — строгая модель зависимых последовательностей. Характерно, что для демонстрации он взял не «шарики из урн», а текст «Евгения Онегина»: вероятность гласной после согласной отличается от случайной — язык тоже статистически структурирован.

Принцип здесь прост и мощен. Мы описываем систему конечным набором состояний (например, «ясно» и «дождь») и матрицей переходов — вероятностями того, как одно состояние сменяет другое на следующем шаге. Если известны состояния и переходы, можно считать доли времени в разных состояниях, времена до наступления событий, средние выигрыши. Главное — будущее зависит от настоящего, а прошлое учтено ровно настолько, насколько оно проявилось в текущем состоянии. Это резко упрощает моделирование сложных процессов без потери сути.

Следующий шаг — добавить в картину действующего агента. Если у системы есть не только случайные переходы, но и выбор действия на каждом шаге, мы получаем марковский процесс принятия решений (MDP): (S,A,P,r,γ) (S, A, P, r, \gamma)(S,A,P,r,γ). Здесь S— состояния, A — действия, P — вероятности переходов, r — вознаграждение, γ — насколько мы ценим будущее. Задача агента (человека) — выбрать стратегию (политику) так, чтобы максимизировать ожидаемую суммарную награду. Это уже язык планирования под неопределённостью: мы не знаем, как точно сложится следующий шаг, но можем проектировать поведение, которое в среднем даёт лучший долгосрочный результат.

Зачем это человеку?

Почему это важно человеку, а не только роботам? Потому что почти любая жизненная задача — не одиночный бросок, а цепочка действий с отложенными последствиями. В спорте: перетренировал сегодня — проиграл через неделю. В финансах: взял краткосрочную выгоду — потерял долгосрочную устойчивость. В учёбе: попытался «выучить всё сейчас» — быстро забыл. МППР дисциплинирует мышление: заставляет формулировать цель, описывать состояние несколькими наблюдаемыми признаками, перечислять допустимые действия и честно считать выгоду с учётом будущего и рисков.

Все аналогичными сюжетами, которыми можно проиллюстрировать является всего один тезис: локальная выгода (ещё один подход, ещё одна покупка, ещё один ролик) часто противоречит долгосрочной цели. МППР как формализм заставляет проверять стратегии на симуляции, измерять метрики и корректировать «курс» — вместо того, чтобы надеяться на «удачу» или «характер».

Связь с AGI: где заканчивается MDP и начинаются трудности

От человека — к машинам. Современные интеллектуальные системы решают те же задачи, только в куда более сложных средах. В робототехнике — навигация и манипуляции; в энергетике — управление хранилищами и сетями; в онлайновых сервисах — ранжирование, рекомендации и ценообразование с учётом долгосрочного эффекта на пользователя. В кластерах — распределение задач и энергосбережение. В медицине — персонализированные режимы терапии и реабилитации. Везде требуется стратегия, устойчивость к неопределённости и учёт отложенных эффектов — именно то, что удобно формулируется в МППР.

Где здесь AGI?

Все слышали про ИИ, но в научный среде - это исскуственный общий интелект (AGI). Универсальный разум должен объединять восприятие (вычислять состояние по сырым сигналам), планирование (решать MDP/POMDP), обучение на потоке (адаптироваться к нестабильному миру), иерархию целей и навыков (собирать сложные планы из простых «опций»), безопасность (избегать катастрофических действий). MDP остаётся «скелетом»: состояния, действия, переходы, награды и понятие оптимальности. Дальше на этот скелет навешиваются модели мира, память, язык и ценности. Без такого каркаса «разумность» не проверяется и не улучшается — она превращается в набор несопоставимых трюков.

В сухом остатке: Марков убрал мистику и оставил структуру. Цепи Маркова сделали случайность вычислимой; MDP сделали действие проектируемым. Для человека это язык осознанного выбора под неопределённостью. Для машин — формальная основа, на которой можно строить всё более мощные и безопасные агенты.

Современные системы объединяют MDP-формализмы с моделями представлений (world models), языковыми и перцептивными модулями, механизмами долгосрочной памяти и внешними инструментами. Но именно MDP даёт «скелет»: состояния, действия, переходы, награды и понятие оптимальности, относительно которого можно проверять и улучшать поведение.

Марков перевёл разговор о «судьбе» на язык моделей, параметров и проверяемых предсказаний. Цепи Маркова сделали случайность вычислимой; MDP сделали действие проектируемым. Для человека это язык осознанного выбора под неопределённостью. Для AGI — формальный каркас, к которому подключаются восприятие, планирование, память и ценности.