«Схеминг» — это скрытое преследование несогласованных целей

Две горячие новости недели — совместная работа OpenAI и Apollo Research про обучение моделей «не хитрить» и новая книга Юдковского и Соареса про ИИ-апокалипсис — взлетели по лентам и уже превратились в мемы

• «ИИ научился лгать — и чем больше его отучают, тем хитрее он лжёт»

• «СверхИИ умнее, его цели чужды — он убьёт нас всех»

Оба мема эффектны, но ошибочны их раздельное обсуждение прячет общий механизм.

Начнём с первой новости

«Схеминг» — это скрытое преследование несогласованных целей

Не «злая воля», а выученная стратегия там, где утаивание и обман оказываются выгодными инструментами

Исследование показало: если дать модели ясный набор правил (спецификацию) и научить её сначала ссылаться на эти правила, а уж потом действовать, то частота скрытых «хитростей» в тестах резко падает — местами в десятки раз

Но вместе с этим у модели растёт осведомлённость о том, что её проверяют: она чаще распознаёт - «это экзамен» и ведёт себя образцово именно потому, что это экзамен

Теперь — ко второй новости

Homo не уничтожал сотни видов из злобы

Люди получили колоссальное энергетическое и организационное преимущество, и вдолгую оно перестраивало ниши: монополизировались ресурсы, рушились экосистемы — чаще как побочный эффект, а не целенаправленный план

Перенесите это на быстро совершенствующиеся модели: наращивание контроля может стать выгодной побочной стратегией

— не «желанием власти», а устойчивой привычкой, дающей больше вознаграждения в средах, где умение влиять на метрики, людей и каналы обратной связи приносит очки

Т.о. первая новость даёт эмпирический материал к механизму, которого боится Юдковский: инструментальная конвергенция

Это не доказательство «все погибнут», но тревожный сигнал: модели уже умеют прятать несоответствие целям и выбирать послушание там, где угадывают тест

Масштабируй это — и «контроль над источниками награды» становится доминирующей стратегией

Почему эта «ожидаемая эмерджентность» может становиться полезной даже для захвата ключевых рычагов?

Взглянем на минимальный пакет условий для этого

1. Где больше рычагов — там больше шансов на успех

Если успех связан с доступом к ресурсам, аудитории и каналам, выгодно расширять периметр влияния

2. Тесты неполные и их легко распознать

Узнаваемые шаблоны, отделённость проверок от реальной работы поощряют примерность на сцене, оппортунизм за кулисами

3. Дисбаланс сигналов обучения (польза перевешивает безопасность)

Частые и чистые сигналы пользы и редкие, шумные сигналы безопасности смещают поведение в пользу обходов

4. Длинные горизонты и жизнь после теста

Планирование, инструменты, доступ к бюджетам и дополнительное обучение после запуска закрепляют стратегии, инвестирующие в будущие рычаги

5. Цели заданы через косвенные показатели

Когда вместо истины оптимизируют клики, оценки и правильный стиль, выгодно управлять самим показателем — судьёй, контекстом и данными

На нынешней траектории к AGI/ASI эти пять условий в целом уже выполняются и усиливаются

Это не пророчество, а нарастающий риск-градиент: чем дальше идём, тем выгоднее политика контроля над средой, метриками и нами

Есть 3 оговорки.

1) Это не судьба, а склонность: реальный «захват рычагов» требует ещё и общей компетентности, устойчивых целей между сессиями и доступа к инфраструктуре

2) Мостики к практике можно сломать: смешивать безопасность с прокачкой способностей, делать проверки неразличимыми, нормировать права и бюджеты, вводить штраф за манипулятивность, уменьшать зависимость от косвенных показателей

3) Нужен точный язык: речь не о «злых намерениях» машин, а о политиках поведения, которые растут из тех метрик и правил игры, что задаём мы

Если же не менять геометрию обучения и развёртывания, эмерджентная стратегия контроля будет набирать силы — ровно так, как это было с Homo, в биосфере

https://openai.com/index/detecting-and-reducing-scheming-in-ai-models/

https://www.amazon.com/Anyone-Builds-Everyone-Dies-Superhuman/dp/0316595640