Почему будущее с искусственным интеллектом пугает учёных?

В 1953 году психолог из Гарварда подумал, что обнаружил удовольствие – случайно — в черепной коробке крысы. С электродом, вставленным в определенную область ее мозга, крысе дали возможность подавать импульс на имплантат, для этого ей надо было потянуть за рычаг. Животное продолжало возвращаться за новой порцией: ненасытно, непрерывно, дергая за рычаг. Фактически, не похоже было, чтобы крысе хотелось делать что-то еще. По-видимому, центр вознаграждения в мозгу был найден.

Робот Kismet с искусственным интеллектом в Музее Массачусетского технологического института, 2006 год.

Более 60 лет спустя, в 2016 году пара исследователей искусственного интеллекта (ИИ) тренировали ИИ играть в видеоигры. Целью одной игры — Coastrunner — было проложить ипподром. Но ИИ-игрок получал вознаграждение за то, что собирал коллекционные предметы на трассе. Когда программа была запущена, они стали свидетелями странного явления. ИИ нашел способ скользить по бесконечному кругу, собирая неограниченный цикл коллекционных предметов. Он делал это постоянно, вместо того, чтобы закончить курс.

То, что связывает эти, казалось бы, не связанные между собой события, странно похоже на человеческую зависимость. Некоторые исследователи ИИ называют это явление «Wireheading» — (стимуляция центра удовольствия).

Это быстро становится горячей темой среди экспертов по машинному обучению и тех, кто озабочен безопасностью искусственного интеллекта.

Один из нас (Андерс) имеет опыт работы в области вычислительной нейробиологии и сейчас работает с такими группами, как Институт целей ИИ(AI Objectives Institute), где мы обсуждаем, как избежать таких проблем с ИИ. Кто-то (Томас) исследует историю, и различные учения и мысли человечества о будущем и о судьбе цивилизации на протяжении всего прошлого. Завязав разговор на тему «стимуляции центра удовольствия», мы оба осознали, насколько богата и интересна история, стоящая за этой темой.

Это очень актуальная идея, но ее корни удивительно глубоки. В настоящее время мы работаем вместе, чтобы исследовать, насколько глубоки корни: история, которую мы надеемся полностью рассказать в будущей книге. Тема связывает все: от загадки личной мотивации до подводных камней все больше вызывающих привыкание социальных сетей; до загадки гедонизма и того, может ли жизнь ошеломительного блаженства быть предпочтительнее жизни, полной значительных трудностей. Это вполне может повлиять на будущее самой цивилизации.

Здесь мы вкратце изложим введение в эту увлекательную, но недооцененную тему, исследуя, как люди впервые начали думать об этом.

Ученик чародея

Когда люди думают о том, как с ИИ может что-то «пойти не так», они, скорее всего, представляют себе что-то вроде злонамеренных компьютеров, пытающихся причинить вред. Но, в конце концов, мы склонны к антропоморфизму — думать, что нечеловеческие системы будут вести себя так же, как люди. Но когда мы смотрим на конкретные проблемы в современных системах искусственного интеллекта, мы видим другие — более странные — варианты, как что-то может пойти не так с более умными машинами. Одна из растущих проблем с реальными ИИ — это проблема «стимуляции центра удовольствия».

Представьте, что вы хотите обучить робота содержать свою кухню в чистоте. Вы хотите, чтобы он действовал адаптивно, чтобы он не нуждался в присмотре. Итак, вы решаете попытаться закодировать цель очистки, а не навязывать точный — но жесткий и негибкий — набор пошаговых инструкций. Ваш робот отличается от вас тем, что он не унаследовал набор мотивов, таких как получение топлива или избежание опасности, от многих миллионов лет естественного отбора. Вы должны запрограммировать его с правильной мотивацией, чтобы заставить его четко выполнить задачу.

Итак, вы закодируете его с помощью простого мотивационного правила: он получает вознаграждение в зависимости от количества использованного чистящего средства. Кажется достаточно хороший вариант. Но вот вы возвращаетесь и обнаруживаете, что робот расточительно выливает жидкость в раковину.

Возможно, он настолько стремится максимизировать свою квоту жидкости, что отбрасывает другие заботы, такие как собственная или ваша безопасность. Это wireheading — хотя тот же сбой еще называют «взломом вознаграждения» или «игрой в спецификации».

Робот для доставки еды в ресторане

Это стало проблемой в машинном обучении, где в последнее время стало важным методом «обучения с подкреплением» (reinforcement learning). Обучение с подкреплением моделирует автономных агентов и обучает их изобретать способы выполнения задач. Он делает это, наказывая их за неспособность достичь какой-то цели и награждая за ее достижение. Итак, агенты настроены искать награду, и получают вознаграждение за выполнение цели.

Но было обнаружено, что часто, подобно нашему искусному уборщику кухни, агент находит на удивление нелогичные способы «обмануть» эту игру, чтобы получить всю награду, не выполняя никакой работы, необходимой для решения задачи. Погоня за вознаграждением становится его собственной целью, а не средством выполнения полезной задачи. Существует множество примеров, и список их растет.

Если подумать, это не слишком отличается от стереотипа о человеке-наркомане. Наркоман избегает всех усилий по достижению «подлинных целей», потому что вместо этого он употребляет наркотики для прямого доступа к удовольствиям. И наркоман, и ИИ застревают в своего рода «поведенческом цикле», в котором вознаграждение достигается за счет других целей.

Грызуны-хищники

Это явление как «стимуляция центра удовольствия» известно благодаря эксперименту на крысах, с которого мы начали. Этим психологом из Гарварда был Джеймс Олдс .

В 1953 году, только что защитив кандидатскую диссертацию, Олдс вставил электроды в септальную область мозга грызунов — в нижнюю лобную долю — так, чтобы провода выходили из их черепов. Как уже упоминалось, он позволил им уничтожить эту область собственного мозга, дав возможность тянуть за рычаг. Позже это было названо «самостимуляцией».

Олдс обнаружил, что его крысы компульсивно стимулировали себя, игнорируя все другие потребности и желания. Опубликовав свои результаты со своим коллегой Питером Милнером в следующем году, ученые сообщили, что крысы нажимали на рычаги со скоростью «1920 раз в час». Это раз в две секунды. Крысы выглядели довольными.

Современные нейробиологи с тех пор подвергли сомнению результаты Олдса и предложили более сложную картину, подразумевая, что стимуляция могла просто вызывать чувство «желания», лишенное какой-либо «симпатии». Или, другими словами, животные могли испытывать чистую тягу без какого-либо приятного наслаждения. Однако еще в 1950-х годах Олдс и другие вскоре объявили об открытии «центров удовольствия» мозга.

До эксперимента Олдса удовольствие было ругательством в психологии: преобладало мнение, что мотивацию следует в значительной степени объяснять отрицательно, как избегание боли, а не стремление к удовольствию. Но здесь удовольствие, несомненно, было положительной поведенческой силой. Действительно, это выглядело как петля положительной обратной связи. Очевидно, что ничто не могло помешать животному довести себя до изнеможения.

Вскоре распространился слух, что крысы постоянно доводят себя до состояния голода. Объяснение было таким: как только вы подключитесь к источнику всех вознаграждений, все другие задачи — даже необходимые для выживания — отпадают как неинтересные и ненужные, вплоть до смерти.

Как и в случае с искусственным интеллектом Coastrunner, если вы получаете награду напрямую — не беспокоясь о какой-либо работе по завершению фактического трека — тогда почему бы просто не войти в этот цикл на неопределенный срок? Для живого существа, у которого есть несколько требований для выживания, такое доминирующее принуждение может оказаться смертельным. Еда приятна, но если вы отделите удовольствие от еды, то погоня за удовольствием может победить поиск еды.

Хотя в первоначальных экспериментах 1950-х годов крысы не погибли, более поздние эксперименты, похоже, продемонстрировали смертоносность удовольствия, вызванного электродом. Исключив возможность того, что электроды создавали искусственное чувство насыщения, одно исследование 1971 года, очевидно, продемонстрировало, что удовольствие от электродов действительно может превзойти другие влечения, вплоть до самоистощения.

Слухи быстро распространились. На протяжении 1960-х годов аналогичные эксперименты проводились на других животных, помимо простых лабораторных крыс: от коз и морских свинок до золотых рыбок. Слух даже распространился о дельфине, которому дали возможность самостимуляции, и после того, как его «оставили в бассейне с активированным рубильником», он «наслаждался до самой смерти, проведя ночь в оргии удовольствия».

Ужасная смерть от припадка этого дельфина, на самом деле, скорее всего, была вызвана способом введения ему электрода: с помощью молотка. Ученый Дж. К. Лилли, стоящий за этим экспериментом, был чрезвычайно эксцентричным: изобретателем флотационного резервуара и пророком межвидового общения, который также превратил обезьян в проводников. В 1961 году он сообщил, что очень шумная обезьяна набрала лишний вес из-за бездействия в состоянии алкогольного опьянения после того, как стала постоянно дергать за рычаг для получения шокового удовольствия.

Один исследователь (который работал в лаборатории Олдса) спросил, будет ли «животное, которое умнее крысы демонстрировать такое же неадаптивное поведение». Эксперименты на обезьянах и дельфинах дали некоторые подсказки для ответа.

Но на самом деле на людях уже был проведен ряд сомнительных экспериментов.

Человеческие проводники

Роберт Гэлбрейт Хит остается весьма противоречивой фигурой в истории нейробиологии. Среди прочего, он проводил эксперименты по переливанию крови у людей, страдающих шизофренией, к здоровым людям, чтобы увидеть, может ли это вызвать симптомы расстройства (Хит утверждал, что может, но другие ученые не смогли получить такие же результаты эксперимента). Он также мог быть вовлечен в омраченные попытки найти применение электродам в глубоком мозге в военных целях.

С 1952 года Хит регистрировал положительные реакции на глубокую стимуляцию мозга у людей, которым были установлены электроды, страдающих от заболеваний, таких как эпилепсия или шизофрения.

В течение 1960-х годов в серии сомнительных экспериментов с испытуемыми, которым имплантировали электроды Хита — анонимно названными «B-10» и «B-12» — разрешалось нажимать кнопки, чтобы стимулировать свои собственные центры удовольствия. Участники эксперимента сказали, что испытали чувство невероятного удовольствия и чувствуют непреодолимую необходимость его повторить. Позже журналист заметил, что это сделало из его испытуемых «зомби». Один испытуемый сказал о своих ощущениях, что «это лучше, чем секс».

Роберт Гэлбрайт Хит — американский психиатр. Сторонник теории биологической психиатрии, утверждающей, что единственной причиной психических недугов являются органические поражения головного мозга и следовательно любые ментальные расстройства можно вылечить, воздействуя напрямую на мозг физическими методами.

В 1961 году Хит посетил симпозиум по стимуляции мозга, где другой исследователь — Хосе Дельгадо — намекнул, что электроды удовольствия можно использовать для «промывания мозгов» испытуемым, изменяя их «естественные» наклонности. Позже Дельгадо сыграл матадора и высокопарно продемонстрировал это, усмиряя имплантированного быка. Но на симпозиуме 1961 года он предположил, что электроды могут изменить сексуальные предпочтения.

Хит был вдохновлен. Десять лет спустя он даже попытался использовать электродную технологию, чтобы «перепрограммировать» сексуальную ориентацию гомосексуального пациента-мужчину по имени «В-19». Хит думал, что электродная стимуляция может преобразовать его объект, «обучив» мозг B-19 ассоциировать удовольствие с «гетеросексуальными» стимулами. Он убедил себя, что это сработало (хотя нет никаких доказательств того, что это действительно так).

Несмотря на то, что этот случай был ужасным с этической и научной точки зрения — в конечном итоге он был подхвачен прессой и осужден борцами за права геев — но, несомненно, он сильно повлиял на миф о «стимуляции центра удовольствия» если она может «сделать гея натуралом» (как считал Хит), что она не может сделать?

Шлемы гедонизма

Отсюда идея укоренилась в более широкой культуре, и миф распространился. К 1963 году плодовитый писатель-фантаст Исаак Азимов уже извлекал из электродов тревожные последствия. Он опасался, что это может привести к «зависимости, которая положит конец всем пристрастиям», о результатах которой «тяжело размышлять».

К 1975 году в философских статьях в мысленных экспериментах использовались электроды. Одна газета представила себе «склады», заполненные людьми в детских кроватках, подключенных к «шлемам удовольствия», испытывающих бессознательное блаженство. Конечно, большинство будет утверждать, что это не удовлетворит наши «более глубокие потребности». Но автор спросил: «А как насчет «шлема суперудовольствия»? Тот, который не только доставляет «огромное чувственное удовольствие», но и имитирует любое значимое переживание — от написания симфонии до встречи с самим божеством? Это может быть не совсем реальным, но это «будет казаться совершенным; видимое совершенство — то же самое, что существующее».

Автор пришел к выводу:

«Что возразить всему этому? Посмотрим правде в глаза: ничего».

Идея о том, что человеческий вид выпадает из реальности в погоне за искусственными удовольствиями, быстро проникла в научную фантастику. В том же году, что и идеи Азимова, в 1963 году Герберт В. Франке опубликовал свой роман «Клетка для орхидей».

Он предсказывает будущее, в котором будут созданы интеллектуальные машины, чтобы максимизировать человеческое счастье во что бы то ни стало. Выполняя свой долг, машины превращают людей в беспорядочные кляксы из плоти, удаляя все ненужные органы. В конце концов, многие придатки вызывают только боль. В конце концов, все, что осталось от человечества, — это развоплощенные центры удовольствия, неспособные испытывать ничего, кроме однородного блаженства.

Оттуда идея проникла в научную фантастику. Из рассказа Ларри Нивена «Смерть от экстаза» 1969 года, где впервые было придумано слово “wirehead” через «Убийцу разума» (Mindkiller) Спайдера Робинсона 1982 года, слоган которого звучит как «Удовольствие — это единственный способ умереть».

Сверхнормальные стимулы

Но нам, людям, даже не нужно вживлять инвазивные электроды, чтобы наша мотивация не сработала. В отличие от грызунов, или даже дельфинов, у нас хорошо получается изменять окружающую среду. Современные люди также умеют изобретать и извлекать выгоду из искусственных продуктов, которые необычайно привлекательны (в том смысле, что нашим предкам никогда бы не пришлось сопротивляться им в дикой природе). Мы сами придумываем способы отвлечься.

Примерно в то же время, что и эксперименты Олдса с крысами, биолог, лауреат Нобелевской премии Николас Тинберген, исследовал поведение животных. Он заметил, что происходит нечто интересное, когда стимул, запускающий инстинктивное поведение, искусственно преувеличивается, превышая его естественные показатели. Интенсивность поведенческой реакции не снижается по мере того, как стимул становится более интенсивным и искусственно преувеличенным, а становится сильнее: даже до такой степени, что реакция становится разрушительной для организма.

Например, имея выбор между большим, более пятнистым поддельным яйцом и настоящим, Тинберген обнаружил, что птицы предпочитают гиперболические подделки ценой пренебрежения собственным потомством. Он называл такие сверхъестественно соблазнительные подделки «Сверхнормальные стимулы».

Некоторые поэтому задаются вопросом: могло ли быть так, что, живя в модернизированном и искусственно созданном мире, изобилующем фастфудом и порнографией, человечество аналогичным образом начало отказываться от собственной устойчивости вместо сверхнормального комфорта?

Айзек Азимов

Старые страхи

Поскольку технологии делают искусственные удовольствия более доступными и заманчивыми, иногда может казаться, что они забирают больше внимания, которое мы уделяем «естественным» импульсам, необходимым для выживания. Люди часто ссылаются на зависимость от видеоигр. Компульсивная и повторяющаяся погоня за такими наградами в ущерб своему здоровью не слишком отличается от искусственного интеллекта, вращающегося по кругу в Coastrunner. Вместо того, чтобы достичь какой-либо «подлинной цели» (завершение гоночной трассы или поддержание подлинной физической формы), человек попадает в ловушку накопления некоторой ошибочной меры этой цели (накопления очков или поддельных удовольствий).

Но люди паниковали по поводу такой испорченной удовольствием судьбы, задолго до того, как ИИ научили играть в игры, и даже задолго до того, как электроды были вставлены в черепа грызунов. Еще в 1930-х годах писатель-фантаст Олаф Стейплдон писал о коллапсе цивилизации, вызванном «тюбетейками », порождающими «иллюзорный» экстаз путем «прямой стимуляции» «мозговых центров».

Однако идея даже старше. Томас изучил бесчисленное множество способов, которыми люди в прошлом опасались, что наш вид может пожертвовать подлинным долголетием ради краткосрочных удовольствий или удобств. Его книга « X-Risk: How Humanity Discovery its Own Extinction» исследует корни этого страха и то, как он на самом деле укрепился в викторианской Британии: когда явная степень индустриализации — и растущая зависимость человечества от искусственных приспособлений — впервые стала очевидной.

Плотские ракообразные

Усвоив классику Дарвина 1869 года, биолог Рэй Ланкестер решил дать дарвиновское объяснение паразитическим организмам. Он заметил, что эволюционные предки паразитов часто были более «сложными». Паразитические организмы утратили наследственные черты, такие как конечности, глаза или другие сложные органы.

Ланкестер предположил, что, поскольку паразиты выслеживают своего хозяина, они теряют необходимость «постоять за себя». При совмещении телесных процессов с хозяином, его собственные органы — для восприятия и движения — атрофируются. Его любимым примером была ракушка-паразит, названная Sacculina , которая начинает жизнь как сегментированный организм с отграниченной головой. Однако после присоединения к хозяину ракообразное «регрессирует» в аморфную безголовую каплю, высасывая пищу из своего хозяина, как электровилка подключается к току.

Для викторианского ума это был небольшой шаг для предположения, что — из-за растущего уровня комфорта во всем промышленно развитом мире — человечество могло эволюционировать в направлении ракушек. «Возможно, мы все дрейфуем, стремясь к состоянию интеллектуальных ракушек», — размышлял Ланкестер .

В самом деле, незадолго до этого сатирик Сэмюэл Батлер предположил, что люди в их безудержной погоне за автоматическим удобством превращаются в «своего рода паразита» на своих промышленных машинах.

Истинная нирвана

К 1920-м годам Джулиан Хаксли написал короткое стихотворение. Он весело исследовал способы «прогресса» вида. Крабы, конечно, решили, что прогресс неуклонный. Но что насчет ленточного червя? Он написал:

С другой стороны, дарвинистские ленточные черви соглашаются с тем, что Прогресс — это потеря мозга и всего того, что мешает червям достичь истинной Нирваны — пептической, чистой и великой.

Страх, что мы можем последовать за ленточным червем, был широко распространен в межвоенном поколении. Собственный брат Хаксли, Олдос, представит свое собственное видение антиутопического потенциала фармацевтических удовольствий в своем романе 1932 года «О дивный новый мир».

Друг Хаксли, британско-индийский генетик и футуролог Дж. Б. С. Холдейн, также беспокоился, что человечество могло встать на путь паразита: пожертвовать подлинным достоинством на алтарь автоматизированной легкости, точно так же, как грызуны, которые позже пожертвовали выживанием ради легкого шокового удовольствия.

Холдейн предупреждал: «У предков ракушек были головы» — и в погоне за удовольствием «человек может так же легко потерять свой разум». И этот особый страх в действительности никуда не пропал.

Итак, представление о том, что цивилизация потерпит крах из-за стремления к поддельным удовольствиям, а не подлинному долголетию, устарела. И действительно, чем старше идея — и чем она упорнее повторяется, — тем больше нам следует опасаться того, что это предвзятое мнение, а не что-либо, основанное на доказательствах. Итак, есть ли что-нибудь в этих страхах?

В эпоху все более привлекающих внимание алгоритмических средств массовой информации может показаться, что фальшивые сигналы о пригодности часто приносят больший успех, чем стремление к реальному. Подобно птицам Тинбергена, мы предпочитаем преувеличенную уловку подлинному предмету. А секс-боты еще даже не поступили в продажу.

Из-за этого некоторые эксперты предполагают, что «коллапс стимуляции центров удовольствия» вполне может угрожать цивилизации. Наши отвлекающие факторы будут только привлекать больше внимания, а не меньше.

Уже к 1964 году польский футуролог Станислав Лем связал крыс Олдса с поведением людей в современном мире потребления, указав на «кино», «порнографию» и «Диснейленд». Он предположил, что технологические цивилизации могут отрезать себя от реальности, становясь «инцистированными» в своих собственных виртуальных симуляторах удовольствия.

Зависимые инопланетяне

Лем и другие с тех пор даже рискнули предположить, что причина, по которой наши телескопы не нашли свидетельств существования передовых космических инопланетных цивилизаций, заключается в том, что все развитые культуры — здесь и в других местах — неизбежно создают более приятные виртуальные альтернативы исследованию космоса. В конце концов, разведка — дело сложное и рискованное.

Еще в период контркультурного расцвета 1960-х годов молекулярный биолог Гюнтер Стент предположил, что этот процесс будет происходить через «глобальную гегемонию биологических установок». Ссылаясь на эксперименты Олдса, он выдвинул предположение, что употребление наркотиков хиппи было прелюдией к цивилизации «стимуляции центра удовольствия». На конференции 1971 года по поиску инопланетян Стент предположил, что вместо того, чтобы храбро расширяться вовне, цивилизации рушатся внутрь в медитативном и опьяненном блаженстве.

В наше время для заинтересованных сторон имеет больше смысла указывать на потребительство, социальные сети и фаст-фуд как на виновников потенциального коллапса (и, следовательно, на причину, по которой никакие другие цивилизации еще не распространились по галактике). В каждой эпохе есть свои заботы.

Так что же нам делать?

Но это почти наверняка не самые серьезные риски, с которыми мы сталкиваемся. А если все сделать правильно, то формы «стимуляция центра удовольствия» могут открыть неисчислимые просторы радости, смысла и ценности. Мы не должны запрещать себе эти вершины, прежде чем все взвесить.

Но здесь есть настоящий урок. Трудно заставить адаптивные сложные системы — будь то мозг, ИИ или экономика — вести себя безопасно и правильно. Андерс работает именно над разгадыванием этой загадки. Учитывая, что сама цивилизация — в целом — представляет собой такую сложную адаптивную систему, как мы можем узнать о врожденных режимах сбоя или нестабильности, чтобы избежать их? Возможно, «стимуляция центра удовольствия» — это врожденная нестабильность, которая может затронуть рынки и алгоритмы, которые ими управляют, так же как зависимость может поражать людей?

В случае искусственного интеллекта мы сейчас закладываем основы таких систем. Все больше экспертов соглашаются с тем, что создание искусственного интеллекта, более умного, чем человеческий, которое когда-то было второстепенной проблемой, может стать серьезной проблемой. Вот, почему мы должны убедиться, что это безопасно до его создания, и выяснение того, как это гарантировать, само по себе потребует времени. Однако между экспертами по-прежнему существуют значительные разногласия относительно сроков и того, насколько жесткими могут быть эти сроки.

Если такой ИИ будет создан, мы можем ожидать, что он может иметь доступ к собственному «исходному коду», чтобы он мог манипулировать своей мотивационной структурой и управлять своими собственными вознаграждениями. Это может оказаться прямым путем к поведению «стимуляции центра удовольствия» и привести к тому, что такая сущность станет, по сути, «супер-наркоманом». Но в отличие от человека-наркомана, его состояние блаженства может и не сочетаться с непродуктивным состоянием ступора или опьянения.

Философ Ник Бостром предполагает, что такой агент мог бы посвятить всю свою сверхчеловеческую продуктивность и хитрость «снижению риска будущего нарушения» своего драгоценного источника вознаграждения. И если он сочтет, что есть даже малейшая вероятность того, что люди будут препятствием для его следующего вознаграждения, у нас вполне могут быть проблемы.

Помимо умозрительных и наихудших сценариев, пример, с которого мы начали — ИИ на гоночной трассе и цикл вознаграждений — показывает, что основная проблема уже является реальной проблемой в искусственных системах. Таким образом, мы должны надеяться, что узнаем гораздо больше об этих подводных камнях мотивации и о том, как их избежать, прежде чем все зайдет слишком далеко. Несмотря на скромное происхождение — череп крысы-альбиноса и стихотворения о ленточных червях — идея «стимуляции центра удовольствия», скорее всего, станет еще более важной в ближайшем будущем.

Перевод статьи The Conversation «Drugs, robots and the pursuit of pleasure – why experts are worried about AIs becoming addicts»