Продолжаем публикацию обзоров статей, взявших Outstanding Paper Award на ICML 2025
The Value of Prediction in Identifying the Worst-Off
Authors: Unai Fischer-Abaigar, Christoph Kern, Juan Carlos Perdomo
Paper: https://openreview.net/forum?id=26JsumCG0z
Code: В работе используется open-source библиотека CatBoost (https://catboost.ai)
Data: В исследовании используются научные данные Федерального агентства занятости Германии (IAB)
Англ обзор: https://arxiviq.substack.com/p/icml-2025-the-value-of-prediction
В статье авторы вводят формальный фреймворк для оценки компромисса между улучшением точности прогнозов модели и расширением бюрократических возможностей (т.е. охватом большего числа людей) в государственных программах, нацеленных на помощь «наиболее уязвимым» слоям населения
Авторы разрабатывают коэффициент «предсказание-доступ» (Prediction-Access Ratio, PAR) — новую метрику, которая количественно определяет относительную пользу для общественного благосостояния от инвестиций в более точные прогнозы по сравнению с увеличением числа людей, которых можно проверить и поддержать
С помощью теоретических моделей и реального кейса по длительной безработице в Германии они анализируют условия, при которых каждый из этих инструментов политики оказывается более эффективным
Работа предлагает важный контр-аргумент подходу «точность превыше всего», который преобладает в прикладном машинном обучении
Она показывает, что во многих реальных сценариях с ограниченными ресурсами инвестиции в операционные возможности для реализации прогнозов приносят больше общественной пользы, чем незначительные улучшения в точности моделей
Коэффициент PAR даёт политикам принципиальный и основанный на данных инструмент, позволяющий выйти за рамки изолированных технических метрик и принимать целостные, учитывающие затраты решения о построении систем
Исследование знаменует собой взросление направления «ML для общественного блага», смещая фокус с вопроса «насколько точна модель?» на вопрос «каков самый эффективный способ повысить благосостояние и какое место в этом занимают прогнозы?»
При внедрении машинного обучения в государственную политику целью по умолчанию часто становится максимизация точности прогнозирования
Cтатья критически анализирует и в конечном итоге оспаривает это предположение, задавая более тонкий вопрос: в контексте задач, ориентированных на справедливость, каков наиболее эффективный способ улучшить жизнь самых уязвимых слоёв населения?
Всегда ли это лучший алгоритм, или это может быть что-то другое, например, наём большего числа социальных работников?
Авторы разрабатывают комплексный фреймворк для ответа на этот вопрос, в центре которого стоит ключевая политическая цель: выявление и поддержка «наиболее уязвимых» членов общества
Это смещает фокус оценки с совокупных показателей на целенаправленную, ориентированную на благосостояние задачу
Краеугольным камнем методологии статьи является коэффициент «предсказание-доступ» (Prediction-Access Ratio, PAR) — метрика, предназначенная для количественной оценки компромисса между двумя ключевыми инструментами политики:
1. Улучшение прогнозов: повышение предсказательной способности модели (измеряемой через R²)
2. Расширение доступа: увеличение возможностей для скрининга (α), то есть доли населения, которую можно оценить и которой можно оказать поддержку
PAR определяется как отношение предельного выигрыша в благосостоянии от расширения доступа к предельному выигрышу от улучшения прогноза
Это приводит к изящному правилу принятия решений: социальный планировщик должен расширять доступ всякий раз, когда отношение предельных затрат на доступ к затратам на улучшение прогноза (C_доступа / C_прогноза) меньше, чем PAR
Эта формула обеспечивает прямой количественный мост между выигрышем в благосостоянии, измеряемым PAR, и реальными бюджетными ограничениями государственного учреждения
Чтобы развить интуицию, авторы сначала разрабатывают этот фреймворк в рамках упрощённой теоретической модели, предполагающей гауссовские распределения
Это позволяет им получить чёткие аналитические выводы, показывающие, что ценность прогнозирования неоднородна
Их теоретические выводы характеризуют прогнозирование как «усилие первой и последней мили»
Это означает, что его ценность наиболее высока в крайних точках: когда предсказательная сила очень низка (R² → 0), любое небольшое улучшение — это уже мощный сигнал на фоне случайного угадывания («первая миля»)
Когда предсказательная сила почти идеальна (R² → 1), последний штрих точности помогает идеально нацелиться на последних нескольких нуждающихся, устраняя потери и совершенствуя распределение ресурсов («последняя миля»)
На практике же, в подавляющем большинстве случаев, где и работают реальные системы, преимущество часто остаётся за расширением доступа
Чтобы убедиться, что эти теоретические выводы не являются просто артефактами упрощённой модели, авторы применяют свой фреймворк к масштабному реальному кейсу: выявлению соискателей в Германии, подверженных риску длительной безработицы
Используя административные данные и модель CatBoost, они эмпирически рассчитывают PAR для различных сценариев
Результаты впечатляют и согласуются с теорией
Обученная модель достигла R² = 0.15 на тестовой выборке
Это не признак «плохой» модели, а скорее реалистичный уровень производительности для сложных задач социального прогнозирования, что согласуется с результатами масштабных исследований, таких как Fragile Families Challenge
Для этой модели PAR стабильно оставался выше единицы, что указывает на то, что расширение охвата скрининга даёт больший предельный выигрыш, чем улучшение предсказательной точности модели
Например, чтобы гарантировать проверку 75 % людей из группы высокого риска, система должна иметь возможность проверить примерно на 25 % больше людей, чем сама группа риска — это прямые накладные расходы, вызванные несовершенством прогноза
Более того, сравнение сложной модели CatBoost и простого дерева решений глубиной 4 показало, что значительное усложнение модели привело лишь к незначительному (1-8%) увеличению ценности для политики
Это говорит о том, что во многих практических ситуациях погоня за незначительным приростом точности с помощью сложных моделей может приносить убывающую отдачу по сравнению с более простыми операционными инвестициями
Выводы этой статьи имеют существенные последствия для того, как мы проектируем, внедряем и оцениваем ML в государственном секторе
* Системное мышление: Исследование выводит область за рамки оптимизации самой модели к более целостному, системному взгляду
Ценность компонента ML нельзя оценить в вакууме; она фундаментально связана со способностью более широкой социотехнической системы действовать на основе его результатов
* «Достаточно хорошие» модели: Работа предоставляет количественный аргумент в пользу концепции «достаточно хороших» моделей
Когда узким местом является не выявление, а возможности для вмешательства, более простая, интерпретируемая и менее затратная модель может быть лучшим выбором, освобождая ресурсы для расширения доступа
* Практические рекомендации для политиков: Фреймворк PAR — это не просто теоретическая конструкция, а практический инструмент
Он позволяет лицам, принимающим решения, проводить основанный на данных анализ затрат и выгод для направления инвестиций, гарантируя, что ограниченные государственные средства распределяются наиболее эффективным образом
Авторы открыто говорят об ограничениях своей работы, которые также указывают на богатые возможности для будущих исследований
Текущий фреймворк опирается на упрощённую модель затрат и делает некоторые идеализированные допущения в своих теоретических выводах (например, гауссовские распределения)
В будущем можно было бы исследовать более сложные структуры затрат, включая фиксированные и регулярные расходы, а также изучить динамические среды, где присутствуют петли обратной связи и дрейф модели
Кроме того, хотя статья основана на цели достижения справедливости, будущие расширения могли бы более явно моделировать справедливость (fairness) по отношению к различным демографическим подгруппам, гарантируя, что улучшения не достигаются за счёт усугубления неравенства
Статья «The Value of Prediction in Identifying the Worst-Off» — это значимый и своевременный вклад в область «ML для общественного блага»
Предложив строгий фреймворк для количественной оценки компромисса между точностью прогноза и доступом к ресурсам, авторы предлагают мощный инструмент для политиков и убедительный аргумент в пользу более тонкого и учитывающего всю систему подхода к развёртыванию ИИ в государственном секторе
Статья успешно преодолевает разрыв между теоретическим машинным обучением и практической политикой, представляя трезвый взгляд на то, что самая ценная инвестиция — не всегда в более умный алгоритм, а иногда в человеческие системы, которые его окружают
Эта статья обязательна к прочтению для всех, кто переходит от оценки производительности алгоритмов к ответственному и эффективному применению ML в обществе
Работа "The Value of Prediction in Identifying the Worst-Off" предлагает важный контр-аргумент подходу «точность превыше всего», который преобладает в прикладном машинном обучении
Она показывает, что во многих реальных сценариях с ограниченными ресурсами инвестиции в операционные возможности для реализации прогнозов приносят больше общественной пользы, чем незначительные улучшения в точности моделей
Коэффициент PAR даёт политикам принципиальный и основанный на данных инструмент, позволяющий выйти за рамки изолированных технических метрик и принимать целостные, учитывающие затраты решения о построении систем
Исследование знаменует собой взросление направления «ML для общественного блага», смещая фокус с вопроса «насколько точна модель?» на вопрос «каков самый эффективный способ повысить благосостояние и какое место в этом занимают прогнозы?»