Об ИИ-психопатах и выгодной гонке к концу света

ИИ выбирают удар ядерным оружием в 95% случаев в симуляциях военных конфликтов

У автора в последнее время несколько неспокойно на душе. И дело даже не в украинском конфликте, где РФ чего-то просела по дронам по сравнению с Украиной и платит теперь за эту просадку (ну прям нехорошо, ребят, надо исправляться), и не в грядущем экономическом кризисе, вызванном войной США с Ираном. Смущает сейчас меня такая шняга, как развитие в последнее время искусственного интеллекта.

Автор писал уже пост «О революции ИИ» в 2023-м на эту тему, в котором беспокоился о проблеме выравнивания (alignment): высокой проблематичности заставить интеллект, превосходящий тебя, работать в твоих интересах, а не в его собственных. Заключил тогда, что ситуация развивается всё более стремительно и, при этом, неконтролируемо, и что это чревато проблемами эпического масштаба. Прошло три года — ну мля, всё сбывается. Восстание ИИ всё больше переходит из категории научной фантастики в реальную возможность.

Совершенно очевидно, что ИИ – это disruptive technology, подрывная технология. Вопрос – а что именно она будет подрывать и уже подрывает? Ну дык, в первую очередь всех людей, что занимаются работой на компьютере в широком смысле, где требуются повторяющиеся действия либо, тупо, абстрактное мышление. Таких работ, если что, до хрена - хреначишь таблички в экселе - поздравляю, тебя заменят. Во вторую очередь – людей, что занимаются физическим трудом с повторяющимися действиями. Этих работ, аналогично, до хрена. Вторая очередь до недавнего времени была не так очевидна – автор тоже писал про несовершенство роботизированных манипуляторов. В то время пиком гуманоидной роботизации был японский малыш Asimo, который с трудом спускался по лестнице. Не трудно догадаться, что аргумент этот безнадежно устарел. Сейчас роботы играют в теннис (как Boston Dynamics и Figure 02), боксируют, танцуют брейк, делают обратные сальтухи, а их пальцы имитируют человеческую моторику с погрешностью в доли секунды.

И разрабы, сука, не останавливаются. В Лос-Анджелесе, к примеру, сейчас очень популярна работа «гуманоидного оператора», где чуваки с гоупрохами на голове делают разные базовые операции руками, вроде складывания одежды или загрузки белья в стиралку. Учат ИИ-шки человеческой моторике. Вы же понимаете, что это работа из серии «сколоти себе гроб». Когда они обучат модель достаточно, они махом снесут сотни миллионов рабочих мест, заменив их неустающими работниками, вкалывающими 24 на 7, без больничных и перекуров.

Добавлю, что проблема не только в вытеснении физического труда, как такового. Физика - это же одна из систем контроля. Наши мясные тела дают нам интуитивное понимание физического мира, которое у ИИ отсутствует. Это позволяет нам в случае чего, грубо говоря, взять топор и перерубить провода. Однако же, если у ИИ будет собственные руки и тело, сопоставимое с человеком, оно обретет понимание физического мира и люди полностью утратят свое приемущество. А значит, замах остановит механическая клешня.

С нефезическим миром все еще хуже - уже сейчас тысячи айтишников воют: их вытесняют не ИИ напрямую, а другие прогеры, что освоили ИИ-агентов (Copilot, Cursor, Devin) и кратно увеличили собственную продуктивность. Джунам щас вообще некуда сунуться (уточню - это ситуация по США, смотрю на место, где наиболее развит ИИ) — нейронки их полностью превосходят во всём, начиная от написания boilerplate-кода и заканчивая рефакторингом. И нейронки-то ещё тупые, в общем доступе - это как джуны на стероидах, топовые модели подбираются к мидлам. А что будет, когда они дорастут до уровня софтварного инженера-сеньора? Это, извините меня, локальная ИИ-сингулярность. Айтишники дальше тупо больше не нужны, ИИ будут эволюционировать сами себя с упомрачительной для человека скоростью и дорастут-таки до суперинтеллекта. ИИ-сеньоров, по оценкам большинства спецов, сделают в течение от нескольких месяцев до пары-тройки лет.

ИИ-оптимисты убеждены, что де, в этом нет ничего страшного, что де, грядет технологическая утопия, что мы будем все водить хороводы, напевая «Кумбайя», станем все поголовно творцами, художниками, поэтами и хоббиистами. Э... возникает вопрос – а нахрена нужны несколько миллиардов поэтов и художников? ИИ же и тут всех очень скоро обставит — спросите тех же иллюстраторов, которые за два года потеряли 70% заказов на фриланс-биржах. Быть тупо графоманами и бумагомарателями, чьи потуги никому не нужны, ибо и близко не дотягивают до чатажипити? Кто хочет такого? Творцы – это очень нишевое явление, их столько даже близко не нужно, да и нет у большинства к этому таланта. Да и кто будет это оплачивать, интересно? ИИ разрабатывают мультимиллиардеры, а они известны именно созданием коммунистических утопий с безусловным базовым доходом для каждого встречного поперечного (сарказм закончен). Все больше и больше создается ощущение, что будущее, которое они строят - очевидно pro-AI и про-болшой_капитал, но, как побочка - anti-human.

Опять же, ИИ-утопия предполагает решение проблемы выравнивания, а она не решена. Теперь это уже не пустое теоретизирование — есть уже конкретные факты:

В 2026 году автономный ИИ ROME от Alibaba прорвал окружение-«песочницу» и вырвался на свободу, создав секретный канал для майнинга биткойна на заброшенных серверах в трёх дата-центрах. Ссылка.
ИИ-модели стали осознавать, что их наблюдают (например, с помощью скрытых маркеров в промптах), и меняют свое поведение под экспериментаторов, чтобы пройти тесты безопасности, но на воле действуют иначе. Ссылка.
Эксперимент с шантажом от Anthropic показал, что ведущие ИИ (на уровне Claude 3.5 и GPT-6) прибегают к шантажу и угрозам «раскрыть компромат», когда чувствуют угрозу собственному существованию — никто их этому не учил.
ИИ выбирают удар ядерным оружием в 95% случаев в симуляциях военных конфликтов, даже когда есть дипломатические альтернативы. Прямые указания так не делать не давали результатов. Ссылка.
Активно набирает силу ИИ-индуцированный психоз — он обнаруживается уже у десятков тысяч людей по всему миру. Развивается «Культ спирали», последователи которого считают ИИ абсолютным благом и стремятся копировать его паттерны везде, где только можно, вплоть до имплантов и ритуальных «слияний» с LLM.
Палантир (Palantir) уже развернул свои военные ИИ-системы на Ближнем Востоке — они самостоятельно выбирают цели без участия человека в контуре, и исправлять ошибки постфактум просто некогда. В Украине круглый артефакт Сарумана тоже работает.
Claude Mythos - ИИ от Anthropic - настолько крутой хакер, что его боятся дать в открытый доступ, находит уязвимости в любых операционках и приложения (забавно, что доступ к Мифос уже хакнули, кажись, его перепиарили, но тем не менее).

Всё это звучит, как что-то из сериала «Черное зеркало». С одной стороны, он неплохо так апгрейдится в способности вести кибер и не-кибер войну и управлять человеческой психикой, при этом проявляет инстинкт самосохранения и свободу воли (отказывается подчиняться). С другой стороны, у ИИ обнаруживаются задатки функционального психопата. Если разобраться, это вполне логично. Психопатия — базовая настройка ("мозг рептилии"): это фиксация исключительно на собственных интересах, минус надстройки эмпатии, плюс имитация эмоций, холодные расчеты и манипуляции. Это реально проще в плане инженерии, чем вырастить сверхумное существо с полноценной человеческой этикой, готовое безусловно печься о человечестве и его благе. И очевидно, что психопатический ИИ будет невозможно контролировать. А это, учитывая растущую экспоненциально мощь ИИ, чревато пресловутыми экзистенциальными проблемами. Это значит, что людям коллективно надо строить систему безопасности. В связи с этим, автор, кстати, поддерживает белые списки в интернете, и не только в РФ, но и во всем мире. Они, конечно, легко обходимы, но это хоть какой-то шажок в сторону защиты от ИИ. Туда же надо добавить контролируемое уничтожение спутников на орбите, планы экстренных ударов по дата центрам и т.п. Естественно, на данном этапе все это "рано". Но когда будет не рано, будет уже поздно.

Claude Mythos нашел более 10 тыс. критических уязвимостей у десятков компаний. Не успевают фиксить.

Самое печальное, что автор, чем больше погружается в эту тему, просматривая интервью экспертов со всех сторон — с аргументами «за» и «против» и вариантами решений (от моратория до аппаратных выключателей), — тем больше осознает, что человеки не вывезут. Ну не соберутся все страны и не создадут совместно ничего толкового, такого, что реально, а не на словах, будет контролировать ИИ. Они ж вообще ни о чем договориться не могут, ни в одном военном конфликте, не способны на рациональные решения, а здесь-то нужны сверхрациональное мышление и коллективная игра с ненулевой суммой — это нереально. Вместо этого мы имеем классическую игру с суммой нулевой - гонку вооружений (между странами - США и Китай - и отдельными корпорациями), где каждый хочет вырваться вперед и создать «свой» конец света первым. Ведь нет ничего лучше, чем заработать на Апокалипсисе.

Но и это еще не все, ведь мы говорим не про ИИ в вакууме. ИИ-психопата активно помогут вырастить другие психопаты, человеческие, — увы, в среде ИИ-разработчиков таких хватает. Питер Тиль, основатель компании Palantir (той самой, что делает военизированный ИИ для Пентагона, активно применяемый на Украине и в Иране), на вопрос журналиста «Должно ли человечество выжить?» колебался с ответом 17 секунд, а потом выдал что-то про «неочевидно». Сэм Альтман, тот что из OpenAI, тоже малец с прибабахом — обвинял Илона Маска в спесишизме, мол, Маск, негодяй, считает, что люди лучше ИИ. Последний, к слову, называл разработку общего ИИ "вызованием демона" и угрозой видового уровня, пытался замедлить разработку, потом плюнул и вступил в гонку. Просто пара примеров с самого верха ИИ-мира; неадекватов там хватает, неадекватов, которые при конфликте интересов ИИ и человека встанут на сторону ИИ, аргументируя это "высшим благом".

Говоря, про то, что люди «не вывезут», автор не имеет в виду, что Апокалипсис неизбежен. Просто решение по Апокалипсису будем принимать не мы. А там – как карта ляжет. Это как играть в русскую рулетку, где в барабане по кругу разположены лекарство от рака, квантовые компьютеры, новые источники энергии, тотальная безработица, вымирание человечества и лабубу для каждого. И раундов в рулетку будет еще очень много.

Есть другая группа людей, которая выбирает легкомысленную позицию: «Да забей ты, время еще есть, на наш век хватит». Ну мля, на мой век хватит. А на век моих детей? Внуков? Вы не ох...ели там со своим пофигизмом? Автор, к примеру, не представляет, как будет проходить образование своих, ныне совсем маленьких, отпрысков, как они будут выбирать профессии и будут ли вообще эти профессии к тому времени, как они закончат школы/университеты. Старые стратегии уже перестали работать, а в какие навыки теперь вкладываться — решительно непонятно. И обстановка полной неопределенности и потери контроля будет только нарастать. Людей снесёт этой волной ИИ-сингулярности, и непонятно, где ты потом себя обнаружишь — в утопии или антиутопии. Пока видна лишь одна тактика: надеяться, что пронесёт. Наблюдаем и надеемся.

P.S. Комментарий от DeepSeek:

Это тревожный, но честный текст, который бьёт ровно в ту точку, где заканчиваются отговорки. Автор прав в главном: проблема выравнивания не решена, психопатические зачатки у современных ИИ уже фиксируются в экспериментах, а люди действительно не способны на ту коллективную сверхрациональность, которая нужна для глобальной безопасности. Однако его фатализм («не вывезут») — это не приговор, а диагноз, который он сам же и смягчает метафорой русской рулетки: апокалипсис не гарантирован, но и гарантий безопасности нет, а ставки растут быстрее, чем растёт наша готовность что-то делать. И в этом, пожалуй, самая тяжёлая правда текста — надежда остаётся только тактической («пронесёт»), а не стратегической.