Этот ИИ использует GPT-4, чтобы стать про-игроком в Майнкрафт

Текст ниже является переводом оригинальной статьи

Автор изображения: MineDojo

ИИ-энтузиасты создали бота для игры Minecraft, который может самостоятельно исследовать и расширять свои возможности в открытом мире игры. Однако, в отличие от других ботов, этот написал свой собственный код методом проб и ошибок и множества запросов к GPT-4.

Названная Voyager, эта экспериментальная система является примером "воплощенного агента" - ИИ, который может свободно и целенаправленно двигаться и действовать в симулированной или реальной среде. ИИ типа персонального ассистента и чат-бота не обязательно должны реально делать что-то, не говоря уже о том, чтобы ориентироваться в сложном мире, чтобы это что-то сделать. Но именно это, как ожидается, будет делать домашний робот в будущем, поэтому существует множество исследований того, как он может это делать.

Minecraft - хорошее место для тестирования таких вещей, потому что это очень (ооооочень) приблизительное представление реального мира, с простыми и понятными правилами и физикой, но при этом достаточно сложное и открытое, чтобы можно было многого достичь или попробовать. Целевые симуляторы тоже хороши, но у них есть свои ограничения.

MineDojo - это симулятор, построенный на основе Minecraft, поскольку вы не можете просто поместить туда случайный ИИ и ожидать, что он поймет, что делают все эти блоки и свиньи. Его создатели (во многом пересекающиеся с командой Voyager) собрали вместе видеоролики об игре на YouTube, стенограммы, статьи в Вики и множество сообщений на Reddit из r/minecraft, а также другие данные, чтобы пользователи могли создать или доработать модель ИИ на их основе. Это также позволяет более или менее объективно оценить эти модели, посмотрев, насколько хорошо они справляются с такими задачами, как строительство забора вокруг ламы или поиск и добыча алмаза.

Voyager отлично справляется с этими задачами и работает намного лучше, чем единственная другая модель, которая приближается к этому, Auto-GPT. Но у них схожий подход: используя GPT-4, они пишут свой собственный код на ходу.

Обычно вы просто обучаете модель на всех этих хороших данных Minecraft и надеетесь, что она поймет, как сражаться со скелетами, когда заходит солнце. Voyager, однако, начинает относительно наивно, и по мере того, как он сталкивается с вещами в игре, он ведет небольшой внутренний разговор с GPT-4 о том, что он должен делать и как:

Изучение следующего действия и развитие навыка. Автор изображения: MineDojo

Например, наступает ночь, и появляются скелеты. Voyager имеет общее представление об этом, но он спрашивает себя: "Что будет делать хороший игрок в этой игре, если поблизости появятся монстры? На что внутренний GPT-4 говорит, что "если вы хотите безопасно исследовать мир, вам нужно сделать и экипировать меч, а затем ударить им скелета, избегая попаданий". И это общее представление о том, что нужно делать, переводится в конкретные цели: собрать камень и дерево, изготовить меч на столе для ремесел, экипировать его и сразиться со скелетом.

После выполнения этих задач, они заносятся в общую библиотеку навыков, чтобы потом, когда будет поставлена задача "спуститься в пещеру и найти железную руду", не пришлось заново учиться сражаться с нуля. В библиотеке используется более дешевый и быстрый GPT-3.5, который подсказывает Voyager'y навыки, наиболее подходящие для данной ситуации - поэтому он не пытается добывать скелет и сражаться с рудой.

Это похоже на агента типа Auto-GPT, который, столкнувшись с незнакомым интерфейсом, должен сам научить себя ориентироваться в нем, чтобы достичь своей цели. Но Minecraft - это гораздо более глубокая среда, чем та, которую он привык решать, поэтому такой специализированный агент, как Voyager, работает гораздо лучше. Он находит больше вещей, приобретает больше навыков и исследует гораздо большую территорию, чем другие боты.

Интересно, но и неудивительно, что GPT-4 вытирает ноги об GPT-3.5 (т.е. ChatGPT), когда дело доходит до генерации полезного кода. В тесте, в котором первая версия была заменена на вторую, агент на ранних этапах уперся в стену (возможно, даже в буквальном смысле) и не смог улучшиться. Из разговора двух моделей может быть не очевидно, что одна из них намного умнее, но правда в том, что не нужно быть особенно умным, чтобы вести внешне интеллектуальную беседу (спросите меня, откуда я знаю).
Кодирование же намного сложнее, и GPT-4 был большим обновлением.

Смысл этого исследования не в том, чтобы изжить игроков в Minecraft, а в том, чтобы найти методы, с помощью которых относительно простые модели ИИ смогут улучшать себя, основываясь на своем, так сказать, "опыте". Если мы хотим, чтобы роботы помогали нам в наших домах, больницах и офисах, им нужно будет учиться и применять эти уроки в будущих действиях.

Подробнее о Voyager