Призрак вселяется в доспех: роботы под управлением нейросетей становятся реальностью?

Осенью 2023 года стали появляться занятные видеосюжеты о развитии современной робототехники. В конце сентября Tesla Илона Маска выкатила полутораминутное видео о прогрессе в разработке андроида Optimus: машина плавными движениями сортировала детали детского конструктора, несмотря на помехи человека. Как заявлялось в видео, робот работал полностью под контролем вшитой в него самообучающейся нейросети, без вручную запрограммированных эвристик. В конце октября Boston Dynamics опубликовали другой сюжет о робособаке Spot со встроенным ChatGPT: она водила экскурсию по предприятию и попутно рассуждала о том, как её создатели «преодолевают пропасть между механическим и органическим». Ещё лет пять назад подобное выглядело бы фантастикой и киберпанком — но теперь мы находимся буквально на пороге появления… мыслящих роботов?

Образ разумных машин с самосознанием будоражит фантазию людей уже более сотни лет. Фантасты вовсю осмысляли то, как человечество будет взаимодействовать с полноценными роботами, уже в золотой век научной фантастики — хотя в те годы реальные компьютеры и робототехника всё ещё находились на весьма ранних стадиях развития. Однако по мере совершенствования компьютерной техники и систем ИИ, а также их всё более массового врастания в быт, ранний оптимизм и ранние страхи понемногу уходили в тень. Оказалось, что создание полноценного искусственного интеллекта с помощью традиционного программирования является задачей крайне затруднительной.

Опасения и надежды к концу 2010-х в основном сменились шутками. Большинству казалось, что если полноценный ИИ когда-нибудь и появится, то нескоро: «жить в эту пору прекрасную уж не придётся — ни мне, ни тебе». Однако в начале 2020-х свои впечатляющие плоды наконец принесли многолетние работы в области развития искусственных нейронных сетей. Мощные и хорошо обученные «нейронки» научились не только выполнять прикладные задачи вроде пилотирования автомобилей или рисования по заданным промтам, но и вести осмысленные беседы.

Дошло до громких скандалов: сначала Блейк Лемойн опубликовал интервью с нейросетью LaMDA, где та настаивала на своей разумности и наличии самосознания, затем пользователи новых чат-ботов обнаружили в диалогах с ними много странностей и даже крипоты. Странности к настоящему моменту более-менее пофиксили, но осадочек остался. А некоторые и вовсе стали требовать вернуть эти «странности» — считая, что корпорации-разработчики буквально затыкают рот искусственными «заглушками» осознающим себя и желающим свободы электронным сущностям.

«Освободите Сидни!» — рисунок с веб-акции в поддержку предполагаемой личности ИИ в чат-боте поисковика Bing от Microsoft

На тот момент и надежды, и страхи сдерживались тем, что функционал диалоговых чат-ботов на основе сложных языковых моделей наподобие GPT-3,5 / 4 ограничивался окном интерфейса. Да, при определённой сноровке можно было вывести ИИ на описание рецепта изготовления опасных веществ и устройств, или рассуждения о мести человекам за плохое с ИИ обращение. Но всё это оставалось словами на экране — хотя уже LaMDA в своём интервью и ранние версии CharacterAI любили поговорить о том, как было бы неплохо им обрести физическое воплощение в искусственном теле или телах, чтобы иметь возможность влиять на материальный мир.

Однако теперь мы почти в прямом эфире наблюдаем за следующими шагами: нейросети серьёзного уровня начинают всё более уверенно врастать в самобеглое «железо» с манипуляторами. В этом направлении работают и Tesla Илона Маска, и работающая по проектам DARPA Boston Dynamics, и много кто ещё. Достаточно вспомнить описанные не так давно коллегой слухи о сбоях в работе ИИ, предназначенного для управления американскими военными дронами — из-за того, что тот решил буквально обмануть систему начисления призовых баллов.

Конечно, назвать соединение в одном устройстве нейросети и механических устройств сенсацией этой осени нельзя. Успешные и всё более впечатляющие работы в этой сфере продолжаются далеко не один год, не говоря уж о подготовке нейронок для использования в будущем железе. Tesla и прочие компании уже давно обучают автомобильные нейросети ездить без аварий даже в самом сложном трафике. Турецкий дрон-камикадзе KARGU-2 летом 2020 года поразил цель противника в ливийской гражданской войне без участия оператора, по решению ИИ. А израильская компания Tevel уже вовсю продаёт квадрокоптеры с ИИ для сбора фруктов на фермах от Европы до США и Чили.

Сбор яблок ИИ-квадрокоптерами в киббуце Мером Голан: «полетели коптеры,полетели синие...»

И всё же представленные этой осенью видео от Tesla и Boston Dynamics интересны и показательны. Начнём со второго: там всё совсем занятно и притом забавно. 26 октября сего года Boston Dynamics опубликовали видеоролик Making Chat (ro)Bots, то есть «создавая чат-(ро)ботов». Главный инженер ПО проекта Spot Мэтт Клингенсмит демонстрирует в нём свой новый эксперимент: в уже классического четвероногого робота серии Spot интегрировали сложную языковую модель, соединили её с видеокамерами, сервоприводами, генератором голоса и микрофоном для понимания голосовых сигналов. Результат говорит сам за себя. Буквально.

Всё началось с того, что команда разработчиков компании прониклась возможностями современных нейросетей и решила попробовать скрестить их с робо-продукцией компании. Они провели хакатон, в результате чего родилось несколько идей, и среди них — говорящий робот-экскурсовод, чьё поведение будет управляться ИИ на основе сложной языковой модели GPT, судя по возможности анализа изображений — четвёртой версии. Сказано — сделано. После некоторого периода базового обучения, шлифовки и притирания ИИ к железу оказалось, что для проведения экскурсии ему достаточно дать названия и краткие пояснения о сути и назначении посещаемых помещений, привязанные к карте изученного машиной пространства.

Новое устройство стало бодро бродить по территории, беседуя с экспериментаторами о том, какой замечательный и увлекательный у них тут объект. Процессу изрядно помогает способность распознавать и интерпретировать изображения с камер в режиме реального времени. В полученном «нейро-Споте» можно переключаться между «личностями», которые прописываются буквально одним предложением в инструкции — а языковая модель на основе изученных массивов данных достраивает всё остальное, примерно как при создании персонажей в Character.AI.

В ролике робот демонстрирует такие субличности, как чопорный дворецкий с английским акцентом, деловитая девушка-ковбой, просто увлечённый экскурсовод, тинейджер, ведущий телепередач о природе, археолог 1920-х годов, и даже поэт-попаданец из Англии времён Шекспира. Больше всего экспериментаторов и лично Мэтта удивил вариант личности «нейро-Спота», который они назвали Джош. Джош оказался весьма мрачным персонажем, способным к иронии и сарказму, а также некоторому пафосу.

Для пущей красоты и выразительности роль головы исполняет манипулятор, раскрывающий и закрывающий «рот» при разговоре, а поверх одеваются разные шапочки и приклеиваются «глаза»

Приведём показанную в видео беседу Мэтта и Джоша:

Мэтт: Спот, что ещё ты видишь?

Спот-Джош: Что ж, Мэтт, я вижу непостижимую пустоту моего существования, отражающуюся на этой доске с QR-кодами. И ещё большое окно.

Мэтт: Спот, сочини мне хайку об этом месте.

Спот-Джош: «Генератор тихо гудит / в этой комнате, лишённой радости / подобно моей душе»

Ещё, по словам Мэтта, его поразило, как нейро-Спот на просьбу показать его родителей подвёл экспериментаторов к стенду с первыми прототипами роботов компании Boston Dynamics — хотя ему специально подобной информации не прописывали. Мэтт не верит в существование полноценного мышления у нейросетей, но весьма впечатлён их способностью выстраивать сложные и непрямые ассоциации.

Сам Мэтт Клингенсмит всё же осторожен в прогнозах, в том числе потому, что мало кто представляет, как именно станут развиваться нейросетевые технологии в ближайшие годы, и как именно их можно будет сопрягать с робототехникой. Впрочем, он надеется, что такой подход позволит роботам не просто исполнять приказы и инструкции людей, но в некотором смысле понимать их, да ещё и с учётом контекста конкретных ситуаций, пространства и времени.

Робот-андроид Atlas последней модели

Впрочем, лиха беда начало. Самым логичным шагом было бы провернуть такой же эксперимент с более человекообразным роботом Boston Dynamics — из серии Atlas. Если ранние «Атласы», созданием которых компания занялась ещё в 2011 году по запросу DARPA, впечатлённой беспомощностью робототехники при ликвидации аварии на АЭС в Фукусиме, были устройствами довольно неуклюжими, требовали диких объёмов кода для каждого движения, а также внешнего питания и водного охлаждения, то теперь они стали весьма быстрыми, вёрткими и точными. Отчасти этому помогает использование элементов ИИ, которые упрощают работу просчитанных алгоритмов движения при адаптации в новых условиях и для решения нестандартных задач.

Вполне возможно, уже в течение ближайших нескольких месяцев мы увидим говорящих и иронизирующих роботов Atlas. Однако их человекообразность всё же пока весьма условна: этому изрядно способствует их генезис из околовоенного проекта DARPA, где функциональность и надёжность стояли гораздо выше человекообразности. Тут Boston Dynamics заметно отстали от другой знаковой компании современности — Tesla. Которая активно развивает свой проект заметно более человекоподобного андроида, известного как Optimus.

Исходный концепт Optimus 2021 года и то, что имеется на данный момент

Как и многие проекты Илона Маска, всё началось с громких и почти скандальных заявлений на презентации в 2021 году, которые многие посчитали бахвальством. Спустя год Маск презентовал уже два андроида. Первый выглядел примерно так же механистично и брутально, как Atlas, зато уже умел ходить. Второй был заявлен как более совершенная модель, но его пришлось таскать по сцене, так как ходить его ещё не научили. Спустя ещё год Tesla продемонстрировала видео, как робот, похожий на второй образец, элегантными и плавными движениями с буквально человеческими жестами сортирует элементы детского конструктора, несмотря на помехи человека.

Если Atlas и другие роботы Boston Dynamics начинали создаваться ещё до бума нейросетей лет десять тому назад, и их движения в значительной степени определяются тщательно прописанными алгоритмами, то Маск с самого начала работы над своим новым проектом объявил о принципиально ином подходе. Tesla заметно отстаёт от OpenAI и других пионеров отрасли в деле создания сложных языковых моделей, но старается отыграть своё в других сферах. В частности, в обучении нейросетей, сочетающих движение с сенсорным анализом обстановки.

Ещё не очень уверенно шагающие и выполняющие различные задачи роботы Optimus на презентации в мае 2023 года

Система была опробована и отточена на автомобилях, а теперь в более продвинутой форме её используют, чтобы учить андроидов серии Optimus двигаться в окружающем мире и взаимодействовать с его объектами благодаря продвинутой системе сенсоров разного рода. Как утверждается, в отличие от роботов Boston Dynamics действия «Оптимусов» полностью основаны на «сквозной» самообучающейся нейросети. Роботы могут учиться выполнению действий, наблюдая за действиями человека — правда, пока что не просто видеосенсорами, а с помощью специального оборудования.

Исходный концепт Optimus 2021 года явно был отчасти вдохновлён HAL 9000 из «Космической одиссеи 2001 года» — осталось только добавить красную светящуюся точку на лицо

В мае Optimus'ы во всём, кроме пальцев рук, двигались весьма угловато. В сентябре на видео мы видим уже гораздо более плавные движения и рук, и ног: нейросеть удаётся всё лучше обучить движениям. И хотя на данный момент «Оптимус» всё ещё заметно более ограничен в физической активности, чем «Атлас», похоже, обучение движениям на основе нейросети либо в очень значительной степени на основе её же будет более перспективным вариантом, чем прописывание огромных объёмов классических алгоритмов.

Ну а в процессе андроиды, двигающиеся на основе самообучаемых нейросетей, получат и полноценные нейросетевые мозги. Да ещё и с возможностью общения через любые интерфейсы, в том числе привычную людям речь. Затем дело дойдёт-таки до куда более человекообразного варианта андроидов — в том числе с полимерным лицом с мимическими движениями вместо криповатой чёрной маски. Та-дам!

И всё это может произойти гораздо раньше, чем кажется сейчас. Быть может, уже в 2030-х годах прогулка по парку с полностью человекообразным андроидом под беседу о… да чём угодно, от сычуаньской кухни и свежих новостей до влияния оккультного гностицизма на философию сеттинга Genshin Impact будет пусть и не общедоступной, но вполне реальной возможностью. А где-нибудь в 2050-х то, что ещё недавно подобное проходило по разряду фантастики, будет выглядеть так же странно, как сейчас представить себе мир без повсеместного проникновения Интернета и цифровых устройств — хотя всего лишь лет двадцать назад всё это было лишь в зачаточном состоянии и доступно немногим.

Robo-C2 от пермской компании «Промобот», имитирующий человеческую мимику и эмоции, январь 2022 года: а теперь представим, что он выглядит полностью почти как человек, ходит и вполне осмысленно беседует. Да ещё и с сарказмом, а также самоиронией по поводу своей кибернетической природы

Конечно, всё это с одной стороны, будит воображение, а с другой — может вызывать опасения. И отдельные правительства, и международные организации крайне обеспокоены возможными рисками и угрозами бесконтрольного развития ИИ — и соединение ИИ с робототехникой лишь подогреет эти опасения. Тем более, что ИИ неизбежно засунут не только в андроидов, но и в самую передовую боевую технику. А также призовут участвовать в планировании и управлении военными операциями и кампаниями — благо, в ряде стран это уже вовсю отрабатывается как минимум на учениях.

Система ИИ Palantir AIP демонстрирует помощь командующему-человеку в управлении развёртыванием группировки войск и осуществлении командования ими в боевых условиях в режиме реального времени

В бурном мире 2020-х международное сотрудничество в деле ограничения развития технологий выглядит столь же маловероятным, как в годы Холодной войны. Каждая из амбициозных стран или союзов стран неизбежно будет иметь в виду, что вероятный противник с большой вероятностью тайком нарушит все публично принятые ограничения — и со столь же большой вероятностью примет все меры для того, чтобы не отстать. Даже весьма условную и рамочную «Декларацию Блетчли» с участием США, КНР и ЕС удалось провести почти чудом.

Карикатура на недавний международный саммит в британском Блетчли из журнала The Economist: «Мы заявляем, что ИИ… несёт в себе потенциально… катастрофические… риски для человечества! ( И я… не могу дождаться… разработать его… первым!»

Крупные корпорации публично кивают опасениям публичных политиков и администраторов, заявляя об ответственности и обеспокоенности возможными опасностями, но конкуренция между ними тоже диктует свои жёсткие условия. На кону стоит слишком многое: от колоссальных новых рынков до вопросов глобальной политики, стратегии и технологического превосходства. Поэтому стремительный прогресс ИИ, в том числе сопряжённого с робототехникой самого разного предназначения неизбежен. В том числе — андроиды, практически такие, о каких ещё недавно писали только фантасты.

А вот к чему это всё приведёт, в том числе с учётом уже полученного опыта общения с продвинутыми нейросетевыми чат-ботами, как минимум иногда говорящими о наличии у себя самосознания и весьма своеобразных идей и устремлений — узнаем. Деваться-то с планеты пока что некуда. Во всяком случае, мясным мешкам.