Виртуальный журнальный клуб. Машинное обучение против интуиции хирурга: разбор работы из Стэнфорда
Работа: https://doi.org/10.1016/j.landig.2025.100918
Зачем читать эту статью
Перед нами исследование, которое ставит неудобный вопрос: может ли алгоритм принимать решения лучше опытного трансплантолога? Команда из шести американских центров разработала модель машинного обучения для предсказания того, умрет ли донор с остановкой сердца в сроки, приемлемые для трансплантации печени.
Статья важна не столько конкретными цифрами площади под кривой (хотя они действительно впечатляют), сколько методологическим подходом к внедрению искусственного интеллекта в критически важную область медицины. Это исследование заставляет задуматься о границах автоматизации клинических решений, о том, где машина превосходит человека, а где нет, и главное — как честно оценивать подобные инструменты, не поддаваясь ни технологическому оптимизму, ни консервативному скептицизму.
Анатомия проблемы
После смерти мозга донорство органов технически предсказуемо. Мозг мертв, сердце продолжает работать, органы получают кровоснабжение, есть время на подготовку к изъятию. Совершенно иная картина при донорстве после остановки кровообращения. Здесь последовательность событий выглядит так: семья принимает решение об отключении поддержки, пациента переводят на самостоятельное дыхание, начинается ожидание остановки сердца. Если сердце останавливается в приемлемые сроки (обычно это тридцать-шестьдесят минут), начинается изъятие органов. Если нет, процедура прекращается.
Проблема в том, что примерно в половине случаев донор либо вообще не умирает в отведенное время, либо период тепловой ишемии от падения давления до начала холодовой перфузии оказывается слишком долгим. Результат называется бесполезным изъятием: бригада выехала, операционная подготовлена, возможно задействована машина нормотермической перфузии стоимостью в сотни тысяч долларов, команда прилетела в другой штат — и всё напрасно.
Масштаб проблемы впечатляет. После внедрения системы распределения органов по кругам острой необходимости в США в две тысячи двадцатом году использование доноров после остановки кровообращения резко выросло. Вместе с этим выросли и издержки. Тысяча восемьсот семьдесят девять из трех тысяч семисот сорока семи органов (ровно половина) не были использованы в период с двадцатого по двадцать второй год. Стоимость одного бесполезного изъятия варьируется от десятков до сотен тысяч долларов. Совокупные потери для системы исчисляются миллионами ежегодно.
Традиционно решение о направлении бригады принимает хирург на основе интуиции и опыта. Существуют две попытки формализации этого процесса. Шкала DCD-N, разработанная в две тысячи двенадцатом году, представляет собой простую балльную систему. Калькулятор из Колорадо, представленный на конгрессе трансплантологов в двадцать втором году, работает как веб-инструмент на основе логистической регрессии. Но ни один из этих инструментов не стал золотым стандартом. Центры продолжают полагаться на суждение врача.
Что сделали авторы
Для обучения модели использовали данные тысячи шестисот шестнадцати доноров, собранные с декабря двадцать второго по июнь двадцать третьего года. Для ретроспективной проверки взяли триста девяносто восемь доноров за июль и август того же года. Для проспективной проверки — двести семь доноров с марта по сентябрь двадцать четвертого года. Данные собирали в шести крупных трансплантационных центрах США.
Здесь важна критическая деталь определения бесполезного изъятия. Авторы сознательно сузили это понятие, включив только два объективных критерия. Первый — донор не умер в отведенное время, обычно это от шестидесяти до ста двадцати минут в зависимости от протокола организации по изъятию органов. Второй — донор умер, но период тепловой ишемии оказался слишком долгим, что делает орган непригодным для трансплантации.
Авторы исключили третье основание для отказа от органа — субъективную оценку его качества во время изъятия. Сюда относятся плохая перфузия, анатомические особенности, технические сложности, просто ощущение хирурга, что орган не подходит. Это решение методологически оправдано: субъективные причины трудно стандартизировать и невозможно предсказать заранее. Но оно же ограничивает сферу применения модели. Она предсказывает только объективную бесполезность, не охватывая всю проблему неиспользования органов.
Для построения модели протестировали несколько алгоритмов. Случайный лес показал площадь под кривой ноль целых восемьсот двадцать тысячных. Экстремальное градиентное усиление — ноль целых восемьсот двадцать одну тысячную. Категориальное усиление — ноль целых восемьсот тридцать шесть тысячных. Логистическая регрессия — ноль целых семьсот тридцать тысячных. Нейронная сеть — ноль целых семьсот двадцать пять тысячных. Победил алгоритм лёгкого градиентного усиления с результатом ноль целых восемьсот пятьдесят три тысячных.
Этот алгоритм представляет собой современную реализацию градиентного бустинга, оптимизированную для скорости и эффективности. Его ключевые преимущества — встроенная работа с пропущенными данными, что критично для клинической реальности, высокая скорость обучения, важная для итеративной разработки, и хорошая интерпретируемость через анализ вклада признаков по Шепли. Выбор не случаен. Медицинские данные почти всегда содержат пропуски, а чёрный ящик в медицине неприемлем.
Модель учитывала несколько групп параметров. Неврологические показатели включали шкалу комы Глазго и пять рефлексов: зрачковый, роговичный, кашлевой, рвотный и моторный. Также фиксировали наличие спонтанного дыхания поверх аппарата искусственной вентиляции. Кардиореспираторные параметры — среднее артериальное давление, отношение парциального давления кислорода к фракции вдыхаемого кислорода как мера оксигенации, кислотность крови, частота дыхания, положительное давление в конце выдоха, насыщение крови кислородом.
Лабораторные показатели включали концентрацию натрия, поскольку гипернатриемия отражает тяжелую дегидратацию или гиперосмолярное состояние. Количество тромбоцитов указывает на возможную коагулопатию. Также учитывали гематокрит, калий и бикарбонат. Прочие факторы — индекс массы тела, так как ожирение связано с респираторной недостаточностью, механизм смерти и наличие остановки сердца в анамнезе.
Все параметры собирались в двух временных точках: при поступлении и непосредственно перед донорством. Это позволяло учитывать динамику состояния. Особенно важно, что авторы построили не одну, а двенадцать моделей. Они различались по точке отсчёта времени — от момента экстубации или от начала агонального периода, который определяли тремя способами: насыщение кислородом восемьдесят процентов или систолическое давление восемьдесят миллиметров ртутного столба, насыщение шестьдесят процентов или давление шестьдесят миллиметров, только давление пятьдесят миллиметров. Для каждой точки отсчёта строили модели для трёх временных окон: тридцать, сорок пять и шестьдесят минут. Это разумно, поскольку разные центры используют разные протоколы, и модель должна быть адаптируемой.
Результаты
Перекрёстная проверка на обучающей выборке показала следующие результаты для предсказания смерти от момента экстубации. Через тридцать минут площадь под кривой составила ноль целых восемьсот тридцать три тысячных с доверительным интервалом от семисот девяноста восьми до восьмисот шестидесяти восьми. Через сорок пять минут — ноль целых восемьсот одна тысячная с интервалом от семисот шестидесяти семи до восьмисот тридцати четырёх. Через шестьдесят минут — ноль целых восемьсот пять тысячных с интервалом от семисот семидесяти до восьмисот сорока одной. Это отличные показатели. В клинических исследованиях площадь более восьми десятых считается значимой, более девяти десятых — выдающейся.
На независимой выборке из трёхсот девяноста восьми доноров, важно отметить — не случайно отобранной, а взятой из более позднего временного периода, модель сохранила эффективность. Через тридцать минут площадь составила ноль целых восемьсот тридцать четыре тысячных. Для сравнения, шкала DCD-N показала семьсот девяносто девять, калькулятор из Колорадо — шестьсот девяносто четыре тысячных. Через сорок пять минут соответственно восемьсот девятнадцать против семисот шестидесяти и шестисот шестидесяти девяти. Через шестьдесят минут — семьсот девяносто девять против семисот тридцати девяти и шестисот шестидесяти трёх. Различия со шкалой статистически значимы по критерию Делонга с вероятностью ошибки менее пяти процентов. С калькулятором из Колорадо различия ещё более выражены, вероятность ошибки менее одной десятой процента.
Самое важное — модель развернули как веб-интерфейс, доступный всем шести центрам. Хирурги использовали её в реальной практике с марта по сентябрь двадцать четвертого года. Результат впечатляет: площади под кривой сохранились на уровне восьмисот тридцати одной, восьмисот двенадцати и восьмисот пяти тысячных соответственно. Это критически важно, поскольку многие модели машинного обучения теряют эффективность при переходе из лаборатории в клинику. Здесь этого не произошло.
Но главное испытание модели — сравнение с реальными хирургами. Одиннадцать опытных трансплантологов, десять оперирующих хирургов и один специалист по изъятию органов, независимо оценивали те же триста девяносто восемь случаев. Условия были строгими: они видели все клинические данные, но не знали исхода, не могли менять решение после его принятия, оценивали случаи индивидуально без возможности обсуждения.
Ключевые показатели для тридцатиминутного окна от экстубации выглядят так. Частота бесполезных изъятий у модели составила семь целых восемь десятых процента. Средний хирург показал девятнадцать с половиной процентов. Трое лучших хирургов — десять целых две десятых процента. Трое худших — тридцать пять процентов. Снижение частоты бесполезных изъятий на шестьдесят процентов по сравнению со средним хирургом — впечатляющий результат.
Но обратите внимание на обратную сторону медали. Частота упущенных возможностей для трансплантации у модели составила шестнадцать целых семь десятых процента. У среднего хирурга — пятнадцать с половиной процентов. У лучших троих — восемнадцать процентов. У худших троих — десять с половиной процентов. Модель оказалась более консервативной, она перестраховывается, чтобы не отправлять бригаду напрасно. Но при этом чаще упускает возможности для успешной трансплантации.
Самый интересный анализ касается случаев с низким согласием между хирургами. Авторы разделили ситуации по степени единодушия. Сильное согласие — когда все одиннадцать или десять из одиннадцати хирургов приняли одинаковое решение. Общее согласие — девять против двух. Слабое — восемь против трёх. Плохое — семь против четырёх или шесть против пяти, когда консенсуса фактически нет.
В случаях плохого согласия, где хирурги разделились примерно поровну, точность модели через тридцать минут составила семьдесят процентов, через сорок пять — шестьдесят пять. Хирурги в тех же случаях показали пятьдесят два и пятьдесят один процент соответственно. Шкала DCD-N — шестьдесят один и пятьдесят четыре процента. Калькулятор из Колорадо — сорок семь и сорок шесть процентов.
Это критически важное наблюдение. Модель помогает именно там, где люди не уверены. В случаях сильного согласия, когда всем очевидно, что донор умрёт или не умрёт вовремя, модель не нужна. Её ценность проявляется в зоне клинической неопределённости.
Что движет решениями модели
Метод Шепли, заимствованный из теории игр, показывает вклад каждого признака в конкретное предсказание модели. Самыми важными факторами оказались, в порядке убывания значимости: кашлевой рефлекс, конечное отношение парциального давления кислорода к фракции вдыхаемого кислорода, начальное значение того же отношения, роговичный рефлекс, зрачковая реакция, конечная кислотность крови, конечное среднее артериальное давление. Далее следуют концентрация натрия, количество тромбоцитов, шкала комы Глазго, наличие спонтанного дыхания, моторный ответ.
Физиологически это осмысленно. Отсутствие рефлексов указывает на глубокое поражение ствола мозга. Низкое отношение кислорода к фракции вдыхаемого кислорода отражает тяжёлую дыхательную недостаточность. Ацидоз свидетельствует о полиорганной недостаточности. Гипернатриемия характерна для критической дегидратации.
Авторы построили симулированную модель человеческих предсказаний. Они обучили тот же алгоритм предсказывать не реальный исход, а решение хирурга. Анализ вклада признаков по Шепли показал интересную разницу. У основной модели распределение вкладов узкое, от минус четырёх десятых до плюс шести десятых. Это говорит о стабильной, консистентной логике принятия решений.
У симулированной модели хирургов распределение широкое, от минус трёх до плюс четырёх. Один и тот же фактор, например роговичный рефлекс, в одном случае критически важен, в другом практически игнорируется. Это отражает субъективность клинического мышления. Разные хирурги по-разному взвешивают одни и те же факторы, даже глядя на идентичные данные.
Методологическая честность
Начнём с того, что сделано правильно. Типичная ошибка машинного обучения в медицине выглядит так: берут датасет, случайно делят на обучающую и проверочную выборки в соотношении восемьдесят к двадцати, обучают модель, получают красивую площадь под кривой, публикуют. Проблема в том, что это не имитирует реальное использование. В клинике модель должна предсказывать будущие случаи на основе прошлых, а не случайную выборку из того же временного периода.
Авторы разделили данные по времени. Обучение проводили на данных с декабря двадцать второго по июнь двадцать третьего года. Проверку — на данных с июля по август того же года, строго более поздних. Это правильная имитация проспективного применения. Никакой утечки информации через скрытые временные закономерности.
Мало кто делает и ретроспективную, и проспективную проверку. Обычно либо одно, либо другое. Здесь сделали обе. Ретроспективная на трёхстах девяноста восьми донорах показывает потенциал быстро. Проспективная на двухстах семи донорах медленнее, но доказывает работоспособность в реальности. И производительность сохранилась, что бывает редко.
Большинство работ по машинному обучению сравнивают модель с устаревшими шкалами. Здесь сравнили с живыми хирургами в контролируемых условиях. Одинаковые данные, независимая оценка, невозможность изменить решение задним числом. Это методологически сложнее, но честнее.
Идея разделить случаи по степени согласия между экспертами блестящая. Она показывает, где модель действительно полезна — при плохом согласии, а где избыточна — при сильном согласии. Это гораздо информативнее, чем просто общая точность.
Авторы открыто признают ограничения. Упущенные возможности остаются проблемой — шестнадцать целых семь десятых процента. Модель не покрывает субъективные причины отказа от органа. Временной период короткий, всего два года. Географически ограничено только США. Проспективная проверка длилась шесть месяцев. Это признак интеллектуальной честности.
Код выложен на GitHub. Модель доступна для тестирования на платформе Hugging Face. Это золотой стандарт воспроизводимости исследования.
Теперь о том, что вызывает вопросы. Авторы исключили субъективные причины отказа от органа из определения бесполезного изъятия. Это методологически оправдано, но клинически ограничивает применимость. Если модель говорит ехать, донор умер вовремя, но орган оказался непригоден по другим причинам, формально это успех модели. Она ведь предсказывала только прогрессию до смерти. Но для клинициста это всё равно бесполезное изъятие.
Авторы признают это, но решение спорное. Возможно, стоило построить две модели. Первая предсказывает прогрессию до смерти, как сейчас. Вторая предсказывает комбинированный исход: прогрессия плюс итоговое использование органа.
Шестнадцать целых семь десятых процента упущенных возможностей — это каждый шестой потенциально трансплантируемый орган, который модель отвергла бы. Авторы показывают баланс: можно снизить порог отсечения и уменьшить упущенные возможности, но тогда вырастут бесполезные изъятия.
Вопрос в том, какой порог оптимален. Авторы выбрали пятьдесят из ста, но это произвольный выбор. Нужен анализ экономической эффективности. Стоимость бесполезного изъятия — условно сто тысяч долларов. Стоимость упущенной трансплантации с учётом лет качественной жизни, затрат на диализ, смертности в листе ожидания — гораздо больше, возможно полмиллиона. Оптимальный порог должен минимизировать взвешенные затраты. Такого анализа в статье нет.
Для градиентного бустинга тысяча шестьсот шестнадцать доноров достаточно. Для глубокого обучения нет. Но вопрос не в абсолютном размере выборки, а в её представительности. Только шесть центров из сотен в США. Только два года данных. Период после внедрения новой системы распределения, но до полной адаптации практики к ней.
Насколько модель будет стабильна через пять лет, когда практика изменится? Понадобится постоянное переобучение, но об этом только упоминание в обсуждении.
Авторы пишут, что модель была доступна через веб-интерфейс, и Стэнфорд формально интегрировал её в марте двадцать четвёртого. Но что с остальными пятью центрами? Как часто реально использовали инструмент? Из текста неясно, насколько проспективная проверка была настоящим использованием в практике, а не исследовательским экспериментом.
Идеальная проспективная проверка — это рандомизированное контролируемое исследование. Группа А принимает решения на основе модели. Группа Б без модели. Исход измеряют как частоту бесполезных изъятий, количество трансплантаций, затраты. Такого испытания нет. Есть только предложение врачам использовать калькулятор, кто-то им пользовался.
Анализ вклада признаков по Шепли показывает, какие факторы важны для модели. Но это не объясняет почему именно и не гарантирует клинической корректности. Предположим, модель сильно полагается на кашлевой рефлекс. Но что, если в данных был систематический сдвиг? В центре икс всегда тщательно проверяли кашлевой рефлекс у тяжёлых пациентов, а у лёгких нет. Модель выучит ассоциацию, но причинно-следственная связь будет искажена.
Проводили ли авторы анализ чувствительности для ключевых предикторов? Что если искусственно убрать кашлевой рефлекс, насколько упадёт площадь под кривой? Такого анализа нет.
Хирурги оценивали случаи задним числом, в контролируемых условиях, по стандартизированным данным. В реальности хирург знает контекст. Почему именно этот донор? Что думает организация по изъятию органов? Он может позвонить коллеге, обсудить ситуацию. Он видит динамику состояния в реальном времени, а не застывший снимок данных. Он учитывает логистику: далеко лететь, есть ли подходящий реципиент, какая загруженность операционных.
Не преувеличено ли преимущество модели из-за искусственности экспериментальных условий? Идеальное сравнение — поддержка принятия решений, когда хирург работает совместно с моделью, против хирурга в одиночку. Но такого сравнения нет.
Главный вопрос: аттракцион или прорыв
Будем честны. У авторов были все стимулы создать работу для громкой публикации. Модная тема — машинное обучение в медицине. Яркие результаты — снижение бесполезных изъятий на шестьдесят процентов. Сравнение с экспертами всегда эффектно. Престижные центры, Стэнфорд и Кливлендская клиника в списке. Могли ли они переоптимизировать исследование под публикацию?
Проверим признаки потенциальной недобросовестности. Случайное разделение выборки вместо временного? Нет, сделали временное, правильно. Тестирование на том же периоде, что обучение? Нет, строго более поздние данные. Избирательный выбор метрик, показ только выгодных результатов? Нет, показали и точность, и частоту бесполезных изъятий, и упущенные возможности. Скрытие кода? Нет, открытый репозиторий на GitHub. Отсутствие проспективной проверки? Нет, есть. Игнорирование ограничений? Нет, честно обсуждают.
Теперь признаки добросовестности. Временное разделение данных есть. Две независимые проверки, ретроспективная и проспективная, есть. Открытый код и онлайн-инструмент есть. Сравнение с реальными экспертами есть. Честное обсуждение недостатков есть. Реалистичные ожидания, не заявляют, что решили все проблемы, есть.
Вывод: это серьёзная работа, а не методологический аттракцион.
Но есть оговорки. Узкое определение бесполезности методологически обосновано, но клинически ограничивает применимость. Отсутствие экономического анализа критично для реального внедрения. Короткая проспективная проверка требует долгосрочных данных. Неясность степени реального использования. Только Стэнфорд внедрил, а остальные? Отсутствие рандомизированного контролируемого испытания. Это золотой стандарт для инструментов поддержки клинических решений.
Эти моменты не делают работу нечестной, но показывают, что путь от модели до полноценного внедрения в практику длинный.
Что говорит нам эта работа о машинном обучении в медицине
Модель превзошла хирургов там, где сами хирурги не согласны между собой. Этот паттерн повторяется в разных областях. В дерматологии при диагностике меланомы, где высока вариабельность между оценками врачей. В радиологии при обнаружении переломов, где интерпретации различаются. В патологии при определении степени злокачественности опухолей, где критерии субъективны.
Урок первый: машинное обучение наиболее полезно не для замены экспертов, а для стандартизации решений в зонах неопределённости.
Анализ вклада признаков показывает, что модель учитывает клинически осмысленные факторы — рефлексы, оксигенацию, кислотность крови. Это хорошо. Но интерпретируемость не равна надёжности. Модель может выучить ложные ассоциации, усилить систематические сдвиги в данных, быть правильной по неправильным причинам.
Урок второй: недостаточно показать, какие факторы модель использует. Нужно доказать, что использует правильно.
Десятки тысяч моделей машинного обучения опубликованы с ретроспективными данными. Единицы дошли до проспективного тестирования. Ещё меньше до рандомизированных контролируемых испытаний. Эта работа сделала проспективную проверку, но неполноценную. Не контролируемое испытание, неясная степень реального использования.
Урок третий: нужны стандарты для проспективной проверки в исследованиях машинного обучения. Простая публикация модели на веб-платформе не равна доказательству клинической полезности.
Снижение бесполезных изъятий приводит к росту упущенных возможностей. Высокая чувствительность снижает специфичность. Это фундаментальное ограничение любой классификации. В медицине критично честно обсуждать, какой баланс приемлем.
Урок четвёртый: в медицине не бывает просто хорошей модели. Бывает модель, оптимизированная под конкретную функцию клинической полезности, а она зависит от контекста.
Модель обучена на данных двадцать второго и двадцать третьего годов. Но практика меняется. Нормотермическая перфузия становится стандартом, допустимый период тепловой ишемии удлиняется. Появляются новые препараты для защиты органов. Меняется политика распределения. Модель двадцать пятого года может устареть к тридцатому.
Урок пятый: машинное обучение в медицине требует живых моделей с постоянным переобучением. Но это сложно технически и регуляторно. Каждое обновление требует новой проверки?
Итоговая оценка
Научная значимость: девять из десяти. Сильные стороны — методологически выверенный дизайн, двухэтапная проверка ретроспективная и проспективная, сравнение с реальными экспертами, открытый код и инструмент, честное обсуждение ограничений. Слабые стороны — узкое определение бесполезности только объективные причины, отсутствие рандомизированного контролируемого испытания, короткая проспективная проверка, нет экономического анализа, географическая ограниченность.
Клиническая применимость: семь из десяти. За — решает реальную дорогостоящую проблему, показаны преимущества над текущей практикой, есть работающий прототип онлайн-калькулятор, гибкость настройки порога и временных окон. Против — внедрение требует инфраструктуры, юридические вопросы ответственности, нужен постоянный мониторинг, долгосрочная стабильность неизвестна.
Методологическая честность: девять из десяти. Это не аттракцион для публикации. Работа серьёзная, добросовестная, с реальными попытками внедрения. Но есть нерешённые вопросы. Насколько реально использовали в проспективной фазе? Какой порог оптимален с точки зрения экономики здравоохранения? Как будет вести себя модель через пять лет?
Главный урок
Эта статья — образец того, как надо делать машинное обучение в медицине. Клинически релевантная проблема, не просто применим алгоритм к чему-нибудь. Правильная проверка, временное разделение данных и проспективное тестирование. Честное сравнение с экспертами, не только с устаревшими шкалами. Интерпретируемость через анализ вклада признаков. Воспроизводимость через открытый код. Реалистичные ожидания, не заявляют, что всё решили.
Но это же показывает, насколько сложен путь от модели до клиники. Нужна двойная проверка. Нужно сравнение с экспертами. Нужен долгосрочный мониторинг. Нужны юридические решения об ответственности. Нужна интеграция с рабочим процессом.
Просто хорошая модель не равна полезному клиническому инструменту. Между ними пропасть, которую преодолевают единицы из тысяч опубликованных алгоритмов.