July 17

Новый агент ChatGPT от OpenAI – «Operator» (ChatGPT Agent)

Operator – это новый AI-агент от OpenAI, встроенный в ChatGPT. Он способен самостоятельно выполнять задачи в интернете по запросу пользователя. Ниже представлен подробный обзор оператора по ключевым аспектам.

Что такое агент Operator и как его включить

Официальный запуск: OpenAI представила собственного AI-агента под названием Operator 23 января 2025 года. Это исследовательская версия (research preview) автономного помощника, способного действовать за пользователя. Изначально он был доступен ограниченно – только подписчикам ChatGPT Pro в США через отдельный сайт (портал) operator.chatgpt.com. OpenAI подчёркивает, что на старте это не финальный продукт, а предварительная версия для сбора отзывов.

Доступность по планам: В течение 2025 года компания планирует расширить доступ к агенту. Сначала Operator станет доступен подписчикам ChatGPT Plus, а также пользователям корпоративных тарифов (Team и Enterprise). В июле 2025 OpenAI объявила, что Operator интегрирован прямо в ChatGPT под названием ChatGPT Agent (агент) – теперь пользователи могут включить режим агента непосредственно в интерфейсе ChatGPT. На практике для активации достаточно в любом чате открыть меню выбора моделей/режимов и выбрать Agent Mode (режим агента). Эта функция на момент запуска режима агента стала доступна для подписчиков уровней Pro, Plus и Team по всему миру, кроме некоторых регионов (Enterprise и Education тарифы и страны ЕЭЗ получат доступ позднее). Таким образом, если у вас актуальная платная подписка ChatGPT, вы можете переключиться в режим агента и поручать ему выполнять задачи.

Интеграция в версии ChatGPT: Изначально Operator существовал как отдельный веб-сервис, но с обновлением от 17 июля 2025 года его возможности полностью встроены в основное приложение ChatGPT под названием ChatGPT Agent. Теперь не требуется переходить на отдельный сайт – агент работает внутри последней версии ChatGPT (GPT-4 с инструментами) в виде дополнительного режима. В интерфейсе ChatGPT появился выпадающий список режимов (наряду с выбором моделей GPT-4, GPT-3.5 и т.п.), где можно выбрать Agent. После выбора режима запросы пользователя будут исполняться с помощью агента и его инструментов.

Технические возможности и устройство агента

Полноценное взаимодействие с веб-сайтами: Главное новшество Operator – умение самостоятельно пользоваться браузером. Агент имеет встроенный виртуальный браузер и может переходить на сайты, прокручивать страницы, нажимать на кнопки, вводить текст и заполнять формы прямо как человек. В отличие от прежних плагинов ChatGPT, которые только читали содержимое страниц, Operator реально кликает по элементам интерфейса сайтов. Он способен, к примеру, автоматически нажать кнопку «Купить», выбрать опции из выпадающих меню, поставить галочки в формах и отправить данные. Таким образом, агент не ограничен поиском ответов – он может выполнять действия в интернете.

Автономное выполнение задач: Operator задуман как полностью автономный исполнитель рутинных онлайн-задач. Пользователю достаточно описать цель или задачу в общем виде – далее агент сам разбивает её на шаги и выполняет их последовательно. Например, если попросить «закажи продукты для борща к 15:00 завтра», агент определит, какие ингредиенты нужны, сам найдёт их в интернет-магазине, добавит в корзину и оформит заказ на нужное время. Все промежуточные шаги (поиск товара, выбор времени доставки и пр.) он делает самостоятельно без детальных указаний человека. Благодаря этому ChatGPT Agent способен брать на себя многосоставные процессы и доводить их «под ключ».

Набор встроенных инструментов: Внутри Operator работает комплекс специальный технологий и инструментов, дающий ему гибкость в решении задач:

  • Визуальный браузер. Это графический браузер, через который агент видит веб-страницы (в виде скриншотов) и взаимодействует с ними нажатием кнопок, вводом текста и т.д. Он фактически имитирует действия пользователя в графическом интерфейсе сайта.
  • Текстовый браузер. Для некоторых задач (например, просто получить текст со страницы или выполнить поиск) агент может использовать упрощённый текстовый браузер. Он загружает HTML и текст страницы без рендеринга, что удобно для анализа больших объёмов текста или поиска по странице чисто на уровне содержимого.
  • Терминал (выполнение кода). Агент оснащён встроенной песочницей, аналогичной Code Interpreter, позволяющей запускать код. Он может выполнять вычисления, анализ данных, обрабатывать файлы или генерировать графики по запросу пользователя. Например, ChatGPT Agent способен проанализировать данные конкурентов и сформировать таблицу или график, запустив необходимый код в фоновом режиме.
  • Прямой доступ к API. Если задача требует получения структурированных данных или действий через API, агент может напрямую вызывать API сервисов. Например, чтобы узнать события в вашем календаре, он обращается к API календаря (Google Calendar и др.) вместо того, чтобы «скрапить» веб-интерфейс. Это ускоряет работу и снижает вероятность ошибок при наличии доступного API.
  • Коннекторы к приложениям. OpenAI внедрила систему ChatGPT Connectors, позволяющую подключать внешние аккаунты и сервисы (например, Gmail, Google Drive, GitHub и др.) к ChatGPT. Агент может использовать эти интеграции, чтобы получать нужную информацию из ваших почтовых ящиков, файловых хранилищ, календарей и т.д. прямо в ходе выполнения задачи. К примеру, подключив Gmail, агент сможет найти в вашем почтовом ящике письма по определённому запросу, обобщить их и при необходимости подготовить ответ. Таким образом, ChatGPT Agent имеет доступ к разнотипным инструментам и сам решает, какой из них задействовать для наилучшего выполнения поставленной цели.

«Виртуальный компьютер»: Все перечисленные инструменты агент использует в рамках собственной удалённой среды (виртуальной машины), управляемой OpenAI. Фактически, у ChatGPT Agent есть свой виртуальный компьютер с браузером и терминалом, на котором он «работает». Это важно по двум причинам: во-первых, агент может сохранять контекст выполнения (открытые вкладки, результаты предыдущих шагов) на протяжении задачи, комбинируя разные инструменты. Во-вторых, такой подход изолирует выполнение от устройства пользователя – если агент посещает потенциально вредоносный сайт или запускает код, это происходит на сервере OpenAI, а не на вашем компьютере. Безопасность и целостность данных пользователя при этом контролируются на стороне OpenAI.

Способность к самокоррекции: Operator построен на новой модели Computer-Using Agent (CUA). Это специальная версия GPT-4 (упоминается как GPT-4o) с расширенными визуальными возможностями и обучением с подкреплением для работы с графическими интерфейсами. Модель обучалась взаимодействовать с обычными веб-страницами, понимать их структуру (кнопки, меню, поля) и принимать последовательность действий для достижения цели. Если в ходе работы агент сталкивается с трудностями (например, форма требует капчу или сайт загрузился неправильно), он пытается проанализировать ошибку и исправиться. В ряде случаев модель способна сама скорректировать свой план действий и попробовать альтернативный путь. Только если агент окончательно «застрял», он возвращает управление человеку (подробнее об этом ниже). Такой навык самокоррекции делает работу более надёжной: агент не просто слепо идёт по сценарию, а может адаптироваться к ситуации.

Интерфейс и контроль пользователя: Несмотря на автономность, пользователь остаётся в центре контроля. Агент спроектирован так, что человек может наблюдать и влиять на его работу на каждом этапе:

  • Во время выполнения задачи ChatGPT Agent ведёт пошаговой «рассказ» о своих действиях на экране. Пользователь видит, что делает агент (например: «Открываю сайт магазина… Ищу товар… Добавляю в корзину…»), обычно это отображается в логе сообщений или специальной панели. Такой прозрачный лог даёт понимание прогресса.
  • Подтверждение действий: Прежде чем совершить какое-либо критичное или необратимое действие (например, отправить электронное письмо, оформить платёж или бронирование), агент обязательно запрашивает подтверждение у пользователя. Пользователь получает вопрос с описанием действия («Подтвердите отправку заказа на сумму X» или «Отправить письмо Y?») и только после явного согласия агент продолжит. Это защищает от нежелательных последствий и даёт человеку финальное слово.
  • Режим перехвата (Takeover): В любой момент пользователь может взять управление на себя. Интерфейс позволяет нажать кнопку и переключиться на ручное управление браузером агента. Например, если требуется ввести пароль или решить капчу, агент приостанавливается и предлагает вам сделать это самому (входит в режим ожидания). Вы видите экран сайта и можете лично выполнить нужное действие, после чего вернуть контроль агенту. В режиме перехвата Operator не записывает и не отправляет ваши действия (такие как ввод логина/пароля) на свои серверы – эти данные остаются приватными. После возобновления агент продолжит с того места, где остановился.
  • Отмена и пауза: Пользователь может остановить работу агента в любой момент. Если задача долгая, вы можете приостановить выполнение, попросить краткий отчёт о том, что уже сделано, или полностью отменить задание. При отмене агент предоставит промежуточные результаты, если они были получены. Также, если у вас установлено мобильное приложение ChatGPT, оно пришлёт уведомление, когда агент завершит длительную задачу – так вы можете запустить задание и не ждать, пока оно выполнится, а заняться другими делами.

Автоматизация процессов: ChatGPT Agent поддерживает не только разовые команды, но и сложные сценарии работы и автоматизацию по расписанию. Пользователь может параллельно запустить несколько задач в разных чатах (аналогично нескольким вкладкам браузера) – например, одно задание собирает данные, другое оформляет заказ. Более того, реализована функция периодических задач: можно настроить, чтобы выполненная агентом задача повторялась автоматически по расписанию (например, генерировать отчёт каждое утро понедельника). Таким образом, Agent способен брать на себя регулярные процессы на постоянной основе без повторного запроса каждый раз.

Безопасность и ограничения: OpenAI уделила особое внимание безопасности при запуске такого мощного агента. Введено несколько уровней защитных мер:

  • Ограничения на задачи: Модель обучена отказывать в выполнении определённых чувствительных или рискованных действий. Например, Operator не станет проводить банковские транзакции, принимать важные юридические решения или помогать в явно незаконных делах. Если запрос нарушает политики использования (например, спам, буллинг, мошенничество), агент его отвергнет. Встроенные фильтры и модерация могут предупреждать пользователя и даже отключить доступ к агенту при систематических нарушениях.
  • Watch Mode: Для особо чувствительных категорий сайтов (финансы, почта, здравоохранение) реализован режим повышенного контроля. Агент требует присутствия пользователя при выполнении таких задач. Если пользователь отвлёкся или переключился, агент приостановится, чтобы случайно не совершить ошибку без наблюдения. По сути, на важных ресурсах система просит вас «следить за руками» агента в реальном времени и вмешаться при необходимости.
  • Защита от внешних угроз: Поскольку агент читает и кликает по веб-страницам, разработчики предусмотрели защиту от типичных сетевых угроз. Operator научен игнорировать скрытые инструкции на страницах (защита от prompt-инъекций). Дополнительно запущена отдельная мониторинговая модель, которая следит за действиями агента и прерывает их, если сайт пытается обмануть ИИ (например, через вредоносный скрипт). Новые угрозы анализируются командой OpenAI, и механизмы защиты оперативно обновляются.
  • Конфиденциальность данных: Все данные, с которыми работает агент, принадлежат пользователю, и OpenAI внедрила настройки приватности. Если в настройках ChatGPT отключить опцию “Improve the model for everyone” (не разрешать использование данных для обучения), то и данные Operator не будут употребляться для обучения моделей. Кроме того, предусмотрена полная очистка: пользователь одним кликом может удалить всю историю браузера агента, выйти из всех учетных записей, а также удалить историю диалогов с агентом. Это помогает контролировать «следы» вашей активности через Operator.

Текущие ограничения: Несмотря на впечатляющие возможности, Operator пока не всесилен. Это ранняя версия, и он может допускать ошибки или не справляться с очень сложными задачами. На старте OpenAI отмечала, что агенту трудно выполнять творческие задания вроде создания презентации с нуля или полной организации календаря встреч без помощи человека. Также он может работать медленнее, чем обычный чат-бот (выполнение комплексного сценария может занять несколько минут) – однако разработчики считают, что даже 15–30 минут работы агента экономят пользователю часы ручного труда. В процессе превью OpenAI собирает обратную связь, чтобы улучшить надежность и эффективность агента. В ближайших обновлениях ожидается увеличение скорости, способности обрабатывать ещё более длинные и сложные сценарии, и расширение набора решаемых задач.

Сценарии использования агента ChatGPT (Operator)

Агент Operator открывает новые возможности как для обычных пользователей, так и для специалистов в различных сферах. Ниже рассмотрены примеры, как его можно применять на практике – от бытовых дел до бизнес-задач.

Пример: интерфейс ChatGPT Agent (Operator) при планировании поездки. Слева – запрос пользователя “Help me plan a camping trip to Yosemite next week…” («Помоги спланировать поездку в Йосемити...»), и ниже него – лог действий агента (поиск кемпингов, выбор дат, применение фильтра по удобствам). Справа – автоматически управляемый браузер, где агент сам на сайте Hipcamp вводит параметры (количество гостей, даты) и применяет фильтр “Picnic table” (стол для пикника) для поиска подходящего кемпинга. Пользователь видит все шаги и может вмешаться при необходимости.

Ежедневные задачи и онлайн-шопинг. Operator прекрасно подходит для автоматизации бытовых онлайн-дел. Например, он может заказать продукты или еду с доставкой: пользователь формулирует список или цель («купи ингредиенты для ужина на 4 человек»), а агент сам выбирает товары на Instacart или другом сервисе, кладёт их в корзину и оформляет заказ. Он также способен бронировать услуги и развлечения – от столика в ресторане до билетов на концерт. В демо OpenAI агенту поручали спланировать вечернюю прогулку: он проверил свободное время в Google Календаре пользователя, затем через OpenTable подобрал рестораны и зарезервировал столик. Путешествия становятся проще: Operator может полностью организовать поездку – купить билеты, забронировать отели или кемпинг, спланировать маршрут. Благодаря интеграции с сервисами вроде Priceline и Uber, агент найдёт варианты транспорта и проживания по заданным критериям. Все эти рутинные действия, которые обычно требуют переходить по множеству сайтов и форм, теперь может выполнить ИИ-помощник.

Маркетинг и анализ информации. В профессиональной сфере агент проявляет себя как аналитический ассистент. Он умеет собирать данные с разных сайтов и сводить их в удобный формат. Например, для маркетолога Agent может провести анализ конкурентов: по запросу “проанализируй основных конкурентов и сделай сравнительный отчёт” агент сам найдёт информацию о конкурентах, выделит ключевые показатели и сформирует, к примеру, презентацию (слайды) или таблицу с результатами. В демонстрациях модель собирала данные о компаниях и автоматически генерировала слайды PowerPoint с выводами. Это позволяет значительно ускорить подготовку аналитических отчётов и бенчмаркингов. Кроме того, агент может мониторить упоминания в новостях и делать сводки. OpenAI показывает пример: “посмотри мой календарь и кратко опиши предстоящие встречи с клиентами на основе последних новостей” – ChatGPT Agent просматривает календарь, собирает свежие новости о компаниях, с которыми запланированы встречи, и выдаёт пользователю краткий брифинг. Такая функция полезна специалистам по продажам и развитию бизнеса перед встречами.

Автоматизация бизнес-процессов. Благодаря способности заполнять формы и работать с корпоративными данными, ChatGPT Agent может автоматизировать множество задач в офисе. Он интегрируется с внутренними источниками данных – например, через коннекторы может получить доступ к корпоративному Google Drive, базе знаний или CRM-системе (если настроены соответствующие подключения). Некоторые возможные применения:

  • Документооборот и отчёты: Агент способен регулярно обновлять таблицы и отчётности. Например, подтягивать свежие финансовые данные и добавлять их в существующий отчёт Excel, сохраняя форматирование. Можно поручить ему сбор метрик за неделю и формирование презентации с графиками – и настроить делать это автоматически каждую неделю.
  • Планирование и расписание: В рабочей среде Operator может управлять календарём – по команде перенести встречу, найти удобное время для команды, разослать приглашения. В примерах от OpenAI агент успешно переназначал встречи и планировал выездные мероприятия (offsites), беря на себя коммуникацию и подбор времени. Также он может искать и бронировать места для корпоративных событий (залы, отели) по заданным параметрам.
  • Обработка почты и информации: С помощью подключений Agent способен работать с электронной почтой – например, просканировать входящие письма и выдать список важных, либо сразу сгенерировать ответы на типовые запросы. Он может вытягивать вложения, конвертировать их (скажем, перевести PDF-документ в другой формат или извлечь данные) и даже завести задачу или тикет в системе, исходя из письма. Многие рутильные операции в CRM/CMS – добавление контактов, обновление статусов, импорт данных – теоретически могут быть выполнены агентом, если предоставить ему доступ к нужному веб-интерфейсу или API.

Государственный и социальный сектор: OpenAI отдельно отмечает пользу таких агентов для упрощения доступа к услугам. В сотрудничестве с администрацией города Стоктон (США) Operator тестируется для помощи гражданам при заполнении заявок на городские программы. То есть житель формулирует запрос, а агент проводит его через формы на госпортале, задаёт уточняющие вопросы и помогает отправить заявку правильно. Этот сценарий можно обобщить: агент как универсальный посредник в сложных многошаговых процедурах (оформление документов, заявок, регистрацию услуг) – особенно ценно для людей, не уверенно чувствующих себя в веб-технологиях.

Примеры задач, которые выполняет ChatGPT Agent:

  • Заполнение веб-форм: оформление заказа, регистрация аккаунта, подача заявки на услугу или вакансию – пользователь даёт данные, а агент сам проходит все шаги формы, проверяет поля и нажимает «Submit».
  • Онлайн-покупки: подбор товара по критериям, сравнение цен, применение промокодов и завершение покупки с вводом адреса и оплаты (оплату подтверждает пользователь).
  • Бронирования: поиск и резервирование отелей, авиабилетов, столиков в ресторане, записей к врачу и пр. – агент сравнивает варианты, заполняет необходимые данные и бронирует на ваше имя.
  • Анализ данных и отчёты: сбор информации из разных источников (новости, сайты, документы), ее структурирование и подготовка результата – будь то текстовый отчёт, таблица в Google Sheets или презентация PowerPoint.
  • Повторяющиеся задачи: еженедельная рассылка сводки показателей, ежедневное резервирование парковочного места (как делали сотрудники OpenAI), регулярное обновление бэкапа данных из одного сервиса в другой и т.п. – достаточно один раз настроить с помощью оператора, далее он будет выполнять по расписанию.

Важно подчеркнуть, что Operator пока не заменяет человека полностью в творческих или стратегических задачах. Он берёт на себя «исполнительскую» рутину: клики, поиск и компиляцию информации, оформление действий. Например, агент поможет собрать лиды с веб-сайтов (найти контакты компаний) или провести аудит контента сайта на наличие определённых слов – если точно поставить задачу, он сделает это быстрее человека, перебирая страницы. Однако итоговые решения (кого из лидов преследовать, какие выводы сделать из аудита) остаются за специалистом. В текущем виде ChatGPT Agent эффективен как ускоритель процессов: он сделает черновую работу, а человек проверит и скорректирует результат по своему усмотрению.

Влияние на рынок и перспективы развития

Изменения в работе специалистов. Появление автономных ИИ-агентов способно существенно изменить повседневную работу digital-специалистов, маркетологов и интеграторов AI. Рутинные операции, которые раньше требовали ручного труда (будь то заполнение CRM, сбор отчётов, первичный анализ данных), теперь может выполнять помощник. Это повышает эффективность и продуктивность: специалисты смогут за тот же временной промежуток делать больше, переложив часть задач на ИИ. OpenAI отмечает, что такие агенты превращают ИИ из пассивного инструмента (который только отвечает на вопросы) в активного участника цифровой экосистемы, способного самостоятельно совершать действия. Для компаний это означает новые возможности улучшения клиентского опыта и рост конверсий – ведь агент может напрямую взаимодействовать с пользователем на сайте, помогая довести начатое действие до конца (например, заполнить корзину и оформить заказ). Маркетологи могут использовать Operator для более глубокого и быстрого исследования рынков, запуска многоканальных кампаний (где агент выполняет технические шаги), а специалисты по поддержке – для автоматизации типовых клиентских запросов (агент сам за пользователя нажимает нужные кнопки в аккаунте или на сайте сервиса).

При этом роль человека смещается в сторону контроля и креативного ввода. Появляется задача правильно ставить задачи агенту (инженерия запросов) и проверять его работу. Многие digital-процессы можно будет описать как алгоритм и поручить ИИ, но профессионал будет отвечать за постановку цели и финальную качественную оценку. Поначалу специалисты могут относиться с осторожностью к такому «делегированию» AI, однако по мере роста доверия к инструменту возрастёт и его использование. Отмечается, что Operator – это новая ступень развития нейросетей, и аналогичные агенты разрабатывают другие крупные компании (Google, Anthropic, ByteDance и др.). Поэтому на рынке возникнет спрос на навыки работы с агентами и их интеграции в бизнес-процессы.

AI-интеграторы и разработчики получат ещё более мощный инструмент. OpenAI планирует предоставить модель CUA через API в ближайшее время. Это значит, что разработчики смогут создавать собственных специализированных агентов на базе технологий Operator и встраивать их в сторонние приложения. Например, появится возможность интегрировать ChatGPT Agent напрямую в CRM-систему или в CMS компании, чтобы он выполнял задачи внутри этих систем (создание сделок, публикация контента и т.п.) по команде. Уже сейчас корпоративный тариф ChatGPT Team включает доступ к агенту и позволяет ему работать с внутренними документами, инструментами и кодовыми базами организации. Это предпосылка к массовому внедрению: крупные компании смогут обучать подобных агентов на своих внутренних данных и получать автоматизацию, адаптированную под их нужды.

Перспективы развития: Запуск Operator – это только начало большого пути. OpenAI прямо называет его одним из первых агентов и намекает на будущие версии и типы агентов. В планах компании в 2025 году – выпуск новых AI-агентов с разной специализацией. Возможны агенты для написания кода (в тексте тарифов ChatGPT Pro уже упоминается “Codex agent” для разработки), для творчества, для научных исследований и т.д. Также Operator со временем должен стать частью базовой подписки Plus, то есть быть доступен широкой аудитории без доплат, что сильно увеличит охват технологии.

OpenAI продолжит улучшать надежность и безопасность ChatGPT Agent по мере масштабирования аудитории. Мы можем ожидать, что скорость работы вырастет, а список партнерских интеграций расширится (уже сейчас OpenAI сотрудничает с DoorDash, Instacart, OpenTable, Uber, и др. сервисами, чтобы учесть особенности их сайтов). Вероятно, появятся более глубокие коннекторы с корпоративными системами (SAP, Salesforce и др.), чтобы агент стал по-настоящему универсальным бизнес-ассистентом.

Вывод: Новый агент ChatGPT – Operator – демонстрирует, как AI может выйти за рамки просто генерации текста и перейти к активным действиям в цифровом мире. Он способен брать на себя множество задач, экономя время людей. Благодаря официальным фактам и заявлениям OpenAI, уже понятно, что этот агент задает тренд на ближайшие годы. Специалистам стоит готовиться к сотрудничеству с такими агентами, а бизнесу – к пересмотру своих процессов с учётом новых возможностей. Но важно помнить, что пока это исследовательская версия: человеческий надзор остаётся ключевым, а сам инструмент будет совершенствоваться по мере обучения на реальных кейсах. Operator уже сейчас меняет правила игры, автоматизируя то, что раньше делалось вручную, и в перспективе его влияние на digital-сферу будет только расти.