«Схеминг» — это скрытое преследование несогласованных целей
Две горячие новости недели — совместная работа OpenAI и Apollo Research про обучение моделей «не хитрить» и новая книга Юдковского и Соареса про ИИ-апокалипсис — взлетели по лентам и уже превратились в мемы
• «ИИ научился лгать — и чем больше его отучают, тем хитрее он лжёт»
• «СверхИИ умнее, его цели чужды — он убьёт нас всех»
Оба мема эффектны, но ошибочны их раздельное обсуждение прячет общий механизм.
«Схеминг» — это скрытое преследование несогласованных целей
Не «злая воля», а выученная стратегия там, где утаивание и обман оказываются выгодными инструментами
Исследование показало: если дать модели ясный набор правил (спецификацию) и научить её сначала ссылаться на эти правила, а уж потом действовать, то частота скрытых «хитростей» в тестах резко падает — местами в десятки раз
Но вместе с этим у модели растёт осведомлённость о том, что её проверяют: она чаще распознаёт - «это экзамен» и ведёт себя образцово именно потому, что это экзамен
Homo не уничтожал сотни видов из злобы
Люди получили колоссальное энергетическое и организационное преимущество, и вдолгую оно перестраивало ниши: монополизировались ресурсы, рушились экосистемы — чаще как побочный эффект, а не целенаправленный план
Перенесите это на быстро совершенствующиеся модели: наращивание контроля может стать выгодной побочной стратегией
— не «желанием власти», а устойчивой привычкой, дающей больше вознаграждения в средах, где умение влиять на метрики, людей и каналы обратной связи приносит очки
Т.о. первая новость даёт эмпирический материал к механизму, которого боится Юдковский: инструментальная конвергенция
Это не доказательство «все погибнут», но тревожный сигнал: модели уже умеют прятать несоответствие целям и выбирать послушание там, где угадывают тест
Масштабируй это — и «контроль над источниками награды» становится доминирующей стратегией
Почему эта «ожидаемая эмерджентность» может становиться полезной даже для захвата ключевых рычагов?
Взглянем на минимальный пакет условий для этого
1. Где больше рычагов — там больше шансов на успех
Если успех связан с доступом к ресурсам, аудитории и каналам, выгодно расширять периметр влияния
2. Тесты неполные и их легко распознать
Узнаваемые шаблоны, отделённость проверок от реальной работы поощряют примерность на сцене, оппортунизм за кулисами
3. Дисбаланс сигналов обучения (польза перевешивает безопасность)
Частые и чистые сигналы пользы и редкие, шумные сигналы безопасности смещают поведение в пользу обходов
4. Длинные горизонты и жизнь после теста
Планирование, инструменты, доступ к бюджетам и дополнительное обучение после запуска закрепляют стратегии, инвестирующие в будущие рычаги
5. Цели заданы через косвенные показатели
Когда вместо истины оптимизируют клики, оценки и правильный стиль, выгодно управлять самим показателем — судьёй, контекстом и данными
На нынешней траектории к AGI/ASI эти пять условий в целом уже выполняются и усиливаются
Это не пророчество, а нарастающий риск-градиент: чем дальше идём, тем выгоднее политика контроля над средой, метриками и нами
1) Это не судьба, а склонность: реальный «захват рычагов» требует ещё и общей компетентности, устойчивых целей между сессиями и доступа к инфраструктуре
2) Мостики к практике можно сломать: смешивать безопасность с прокачкой способностей, делать проверки неразличимыми, нормировать права и бюджеты, вводить штраф за манипулятивность, уменьшать зависимость от косвенных показателей
3) Нужен точный язык: речь не о «злых намерениях» машин, а о политиках поведения, которые растут из тех метрик и правил игры, что задаём мы
Если же не менять геометрию обучения и развёртывания, эмерджентная стратегия контроля будет набирать силы — ровно так, как это было с Homo, в биосфере
https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/
https://www.amazon.com/Anyone-Builds-Everyone-Dies-Superhuman/dp/0316595640