Кандидатский проект: иерархическое принятие решений под неопределённостью

О принятой статье, опубликованном proof-of-concept и о том, как работа развивается от классической марковской логики и reinforcement learning к более экономичным архитектурам управления неопределённостью.

В последнее время мыслям Марвина пришлось ненадолго уйти в тень: значительная часть работы была сосредоточена на собственных научных текстах, которые в дальнейшем войдут в основу будущей защиты. Но, во славу Лагранжа, работа оказалась не напрасной: статьи приняты, рецензирование пройдено, а значит, уже можно зафиксировать промежуточный результат и коротко рассказать, в чём состоит логика кандидатского проекта.

Не обошлось и без вполне закономерных замечаний со стороны редакции. В частности, главный редактор справедливо отметил, что кортеж, описывающий состояние системы, в какой-то момент начал заметно выходить за пределы журнального формата. Для исследовательской работы это почти естественно: чем ближе модель к реальности, тем труднее удержать её в компактных рамках. Тем не менее материал удалось привести в публикабельный вид без потери основной идеи.

Основная статья доступна здесь:
https://www.elibrary.ru/item.asp?id=89021776

Отдельно опубликован и proof-of-concept, доступный для скачивания:
https://www.elibrary.ru/item.asp?id=88851718

Кому будет интересно ознакомиться с полными версиями в оригинале, пишите в личные сообщения. Здесь же я хочу дать краткий, но содержательный обзор того, о чём именно идёт речь в кандидатском проекте и почему это направление представляется мне принципиально важным.

Начать стоит с простой мысли: проблема выбора постоянно стоит перед человеком. Иногда она выглядит бытовой, иногда — профессиональной, а иногда принимает форму решения, принимаемого при неполной информации и с отсроченными последствиями. Именно поэтому теорию принятия решений нельзя сводить к чему-то сугубо прикладному или «менеджериальному». В своей строгой части она опирается на вполне серьёзный математический аппарат, лежащий на пересечении статистики, теории вероятностей, стохастических процессов и оптимизации.

Ключевая сложность заключается в том, что выбор почти никогда не совершается в полностью известной и детерминированной среде. И человек, и любая сложная техническая система действуют в условиях неопределённости. Более того, если говорить строго, именно неопределённость является одним из фундаментальных свойств среды, а не просто досадным шумом поверх «настоящей» картины мира. Отсюда и возникает знакомая каждому ситуация: всё было спланировано, но в какой-то момент что-то пошло не так. Причина здесь не только в ошибке планирования, а в том, что сама реальность не обязана разворачиваться по простой линейной схеме.

По этой причине попытка описывать сложные процессы чрезмерно упрощёнными моделями довольно быстро упирается в пределы применимости. Линейные методы полезны, но далеко не всегда достаточны. Реальные системы развиваются с задержками, ветвлениями, скрытыми состояниями, ограниченностью наблюдений и неоднородностью событий во времени. Поэтому неопределённость — это не побочная неприятность, а центральный объект анализа.

Рядом с неопределённостью почти неизбежно возникает и понятие энтропии. Многие знают его из физики, однако в теории информации Шеннона энтропия приобретает уже другой смысл: она характеризует степень неопределённости и тот объём информации, который необходим для описания происходящего. Чем менее предсказуема система, тем выше цена наблюдения, интерпретации и выбора.

Именно здесь становится особенно значимым обучение с подкреплением — одна из ключевых парадигм современного машинного обучения. В самом общем виде reinforcement learning изучает, как агент может действовать в среде, получать обратную связь в виде вознаграждения и постепенно вырабатывать стратегию, которая оказывается предпочтительной в долгосрочном смысле. Но важно подчеркнуть: речь идёт не просто о подборе «выгодного» действия, а о целостной динамической схеме, где состояние, действие, наблюдение и результат связаны во времени.

Для интуитивного объяснения часто используют задачу «многорукого бандита». В ней агент вынужден выбирать между несколькими альтернативами, не зная заранее, какая из них окажется более выгодной. Он должен одновременно исследовать новые возможности и использовать уже найденное. За этой простой постановкой скрывается один из фундаментальных конфликтов принятия решений: баланс между поиском новой информации и эксплуатацией накопленного опыта.

Если двигаться дальше, то мы естественным образом выходим к марковским процессам и к марковской постановке принятия решений. Здесь появляются агент, среда, состояния, действия, функция награды и вероятностная функция перехода. Именно последний элемент особенно важен: действие не гарантирует единственного результата, а лишь изменяет вероятность того, что произойдёт дальше. В этом и состоит принципиальная близость модели к реальности. Мир отвечает на действие не строго и не линейно, а с вариативностью, задержками, ошибками наблюдения и непредвиденными отклонениями.

Однако и этой конструкции оказывается недостаточно, если мы говорим о реальных прикладных задачах. Среда наблюдается не полностью, а её динамика далеко не всегда разворачивается в удобном учебном такте. Одни события происходят почти мгновенно, другие проявляются спустя длительное время, а часть существенных характеристик вообще доступна лишь косвенно. В такой ситуации простая схема «состояние — действие — следующее состояние» требует расширения.

Именно в этой точке и возникает кандидатский проект. Его задача состоит не в том, чтобы ещё раз пересказать базовую теорию reinforcement learning, а в том, чтобы приблизить её к условиям, в которых реально приходится принимать решения: при неполной наблюдаемости, временной неоднородности, ограниченности ресурсов и необходимости согласовывать разные уровни управления.

В прикладной плоскости рассматриваемая задача связана с техническим обслуживанием и ремонтом оборудования. Если говорить совсем просто, вопрос формулируется так: когда и каким образом следует вмешиваться в работу системы, чтобы снизить вероятность аварии, сохранить оборудование в работоспособном состоянии и не расходовать ресурсы хаотично. Но за этой формулировкой скрывается значительно более сложная картина. Оборудование не просто исправно или неисправно; оно деградирует постепенно, работает в изменяющихся режимах, накапливает скрытые дефекты и не всегда проявляет признаки будущего отказа однозначно и заранее. Следовательно, решение о вмешательстве должно опираться не только на текущее наблюдение, но и на прогноз возможного развития ситуации.

Поэтому в проекте вводится разделение на стратегический и тактический уровни управления. Это не декоративное усложнение, а принципиальная часть модели. Стратегический уровень работает с укрупнёнными сценариями поведения — с тем, что в иерархическом reinforcement learning описывается через систему опций. На этом уровне решается, какой класс действий вообще уместен в текущей ситуации: запуск профилактического сценария, перераспределение ресурсов, перевод оборудования в более щадящий режим, отложенное вмешательство или подготовка к ремонту.

Тактический уровень расположен ближе к непосредственному исполнению. Он работает уже с конкретной текущей обстановкой: доступностью ресурсов, локальными ограничениями, сигналами от среды и теми изменениями, которые происходят непосредственно на месте. Иными словами, стратегический уровень отвечает на вопрос, какой сценарий должен быть выбран, а тактический — как именно этот сценарий реализуется в конкретной ситуации.

Такое разделение необходимо не только ради содержательной точности, но и ради вычислительной рациональности. Если пытаться принимать все решения в едином плоском пространстве состояний и действий, система быстро сталкивается с перегрузкой: возрастает размерность, растёт стоимость перебора, а интерпретируемость решений начинает снижаться. Иерархическая организация через опции позволяет структурировать пространство решений и тем самым уменьшить как информационную, так и вычислительную нагрузку.

Именно здесь находится одна из центральных целей работы: построить не просто «умную» систему, а систему, которая была бы ещё и экономичной в вычислительном смысле. Для прикладных задач это принципиально. Модель, которая выглядит убедительно на бумаге, но требует чрезмерного объёма вычислений и наблюдений, в инженерном отношении ограниченно полезна. Поэтому проблема экономии ресурсов в проекте — не второстепенное замечание, а один из системообразующих мотивов.

Но здесь возникает следующий вопрос: насколько вообще допустимо передавать автоматизированной системе право самостоятельно определять, что считать хорошим решением, а что плохим? В задачах, связанных с техническим обслуживанием и потенциально критической инфраструктурой, полностью исключать человека из контура принятия решений было бы методологически сомнительно. Машина может быть последовательной, быстрой и статистически эффективной, но у человека остаётся то, чего у неё нет в строгом смысле: контекст, профессиональный опыт, интуиция в отношении аномалий и способность интерпретировать нестандартную ситуацию за пределами формально наблюдаемого сигнала.

Именно поэтому в архитектуру проекта был дополнительно введён контур Human-in-the-Loop. Речь идёт не о формальном подтверждении решения «на всякий случай», а о встроенном механизме участия оператора в критически значимых точках. В такой постановке человек перестаёт быть просто внешним управленцем или наблюдателем за работой алгоритма. Он становится частью сопряжённой человеко-машинной системы, в которой итоговое решение формируется как результат взаимодействия вычислительной модели, наблюдаемых данных и профессионального человеческого суждения. Иными словами, автоматизация здесь не вытесняет субъекта управления, а образует с ним своего рода симбиотический контур, усиливающий качество решений там, где одной статистической модели уже недостаточно.

Если формулировать общий смысл кандидатского проекта кратко, то это попытка построить более реалистичную архитектуру принятия решений под неопределённостью: архитектуру, в которой сочетаются марковская логика, иерархичность, опционная организация поведения, ограниченная наблюдаемость, временная неоднородность и обязательное сохранение человека внутри управленческого контура.

При этом для меня важно и то, что проект не исчерпывается только текущей постановкой. Одним из естественных направлений дальнейшего развития выглядит линия, близкая к идеям Карла Фристона об экономичности поведения и управлении неопределённостью. Речь здесь не о том, что проект уже построен в парадигме active inference или free energy principle. Такое утверждение было бы некорректным. Но сама внутренняя логика работы постепенно подводит к сходному вопросу: можно ли описывать хорошее решение не только как максимизацию ожидаемой награды, но и как более общий процесс снижения неопределённости, сокращения избыточной сложности представления среды и более рационального распределения вычислительного ресурса?

В этом смысле дальнейшее развитие проекта может двигаться в сторону более широкой архитектуры, где управление рассматривается не просто как выбор оптимального действия, а как поддержание экономичного предсказательно-управляющего контура. Тогда важным становится не только достижение целевого состояния, но и цена описания среды, цена интерпретации наблюдений, цена вычисления политики и способность системы избегать избыточной сложности там, где её можно сократить. Такая перспектива особенно интересна потому, что она связывает классический reinforcement learning, иерархические методы и более общий вопрос об экономии когнитивных и вычислительных ресурсов.

Разумеется, это пока не финальная точка, а лишь одно из возможных продолжений. Однако сам факт того, что статья принята, а proof-of-concept опубликован, уже означает, что каркас идеи выдержал первую серьёзную внешнюю проверку. Для любой исследовательской работы это важный момент: когда замысел перестаёт быть только внутренней конструкцией автора и начинает существовать в пространстве внешнего научного обсуждения.

Именно поэтому кандидатский проект я рассматриваю не как завершённую систему, а как переход от исследовательской интуиции к более строгой, обсуждаемой и проверяемой архитектуре идей. И, возможно, это сейчас важнее всего: не заявлять преждевременно о завершённости, а зафиксировать, что направление выбрано правильно, что у него уже есть теоретический каркас и что первые результаты выдержали внешнюю экспертизу.

Если будет интерес, следующим текстом можно отдельно разобрать, почему неопределённость нельзя сводить только к шуму, почему для таких задач оказывается недостаточно «плоского» reinforcement learning и каким образом идеи экономичности, в том числе близкие к линии Фристона, могут стать следующим шагом в развитии проекта.

Иерархическая архитектура (схема)