Новости
May 17

🤯 Codex от OpenAI: AI-агент, который пишет фичи, фиксит баги и шлёт PR

OpenAI представили Codex – облачного программно-инженерного агента, способного работать над множеством задач параллельно.

Что за зверь этот Codex и что он умеет?

Codex – это не просто очередная модель, генерирующая код. Это облачный агент, который может выполнять комплексные задачи, связанные с разработкой:

  • Написание новых фич: От вас – описание, от него – реализация.
  • Ответы на вопросы по кодовой базе: "Codex, а где у нас тут логика для X?"
  • Исправление багов: Может не только предложить фикс, но и самостоятельно итеративно запускать тесты, пока они не пройдут.
  • Создание Pull Request'ов: После выполнения задачи Codex может сам подготовить PR на GitHub для ревью живыми коллегами.
  • Параллельная работа: Может одновременно вести несколько задач, каждая в своей изолированной облачной песочнице, куда предварительно загружается ваш репозиторий.
  • Интерактивность (в перспективе): Может читать и редактировать файлы, запускать команды (тесты, линтеры, тайпчекеры).

Под капотом у Codex – новая модель codex-1, которая описывается как версия OpenAI o3, специально оптимизированная для задач программной инженерии. OpenAI заявляют, что она обучалась с использованием Reinforcement Learning на реальных задачах и способна генерировать код, который "близко имитирует человеческий стиль и предпочтения в PR", точно следует инструкциям и умеет добиваться прохождения тестов.

Как это работает на практике?

Взаимодействие с Codex происходит через интерфейс ChatGPT:

  1. Постановка задачи: В специальной секции Codex вы описываете задачу (промпт) и нажимаете "Code" (или "Ask", если это вопрос по коду).
  2. Выполнение: Codex приступает к работе в своей песочнице. Выполнение может занимать от 1 до 30 минут в зависимости от сложности. Прогресс можно отслеживать в реальном времени.
  3. Результат и верификация: По завершении Codex коммитит изменения в своей среде. Важно, что он предоставляет доказательства своих действий: логи терминала, результаты тестов. Это позволяет отследить каждый шаг.
  4. Дальнейшие действия: Вы можете просмотреть результат, запросить доработки, открыть PR на GitHub или интегрировать изменения локально.

Ключевая особенность – каждая задача выполняется в изолированной облачной песочнице с доступом к коду вашего репозитория. Интернет-доступ во время выполнения задачи отключен, что повышает безопасность.

Разработчики могут направлять работу Codex с помощью файлов AGENTS.md в своих репозиториях. Это текстовые файлы (аналогичные README.md), где можно указать, как навигировать по кодовой базе, какие команды запускать для тестов, и как лучше следовать стандартам проекта. Как и живые разработчики, агенты Codex лучше всего работают с хорошо настроенным окружением, надёжными тестами и понятной документацией.

Производительность и сравнения

OpenAI приводит данные по производительности codex-1 на бенчмарке SWE-Bench Verified и на внутренних задачах. Модель показывает сильные результаты, даже без AGENTS.md файлов. На одном из графиков видно, что codex-1 значительно опережает o3-high и другие предыдущие модели OpenAI на задачах, связанных с разработкой ПО.

Основной упор при обучении codex-1 делался на соответствие человеческим предпочтениям и стандартам кодирования. Заявляется, что по сравнению с OpenAI o3, codex-1 стабильно производит более "чистые" патчи, готовые к ревью и интеграции. В блог-посте даже приводятся примеры фиксов для astropy, matplotlib и django, где Codex предлагает более лаконичные и корректные решения, чем o3.

Безопасность и доверие

OpenAI подчёркивают, что Codex выпускается как "research preview" в рамках их стратегии итеративного развёртывания. Приоритетами при дизайне были безопасность и прозрачность:

  • Верифицируемость: Пользователи могут проверить работу агента через логи и результаты тестов.
  • Честность: При неопределённости или сбоях тестов агент явно сообщает о проблемах.
  • Изоляция: Работа в защищённых облачных контейнерах без доступа в интернет во время выполнения задачи.
  • Отказ от вредоносных запросов: Модель обучена распознавать и отклонять запросы на разработку вредоносного ПО.

Тем не менее, ручной ревью и валидация всего сгенерированного кода перед интеграцией остаются обязательными.

Программист будущего = философ-концептуалист?

Один из разработчиков Codex поделился своим workflow:

  1. Запускает Codex на новую фичу или рефакторинг.
  2. Уходит пить кофе или общаться в Slack.
  3. Через некоторое время возвращается, видит сотни написанных строк, пройденные тесты.
  4. Сразу отправляет код в GitHub (даже не скачивая себе), коллеги ревьювят PR.

Codex CLI и API

Напомню, что у OpenAI также есть Codex CLI – консольный агент. Для него выпущена специальная, более легковесная версия модели – codex-mini-latest (на базе o4-mini), оптимизированная для низколатентных ответов на вопросы по коду и редактирования. Она доступна в API по цене $1.50 за 1M входных токенов и $6 за 1M выходных (с 75% скидкой за кеширование промптов).
Для Codex CLI упростили авторизацию (теперь через аккаунт ChatGPT) и раздают бесплатные API кредиты на 30 дней: $5 для Plus и $50 для Pro пользователей.

Доступность и цены

  • Codex (полноценный агент в ChatGPT):
    • Уже доступен для пользователей ChatGPT Pro, Team и Enterprise.
    • "Скоро" для Plus и Edu.
    • В ближайшие недели будет "щедрый доступ без дополнительной платы", затем появятся лимиты и гибкие опции для покупки дополнительного использования.

Ограничения и взгляд в будущее

OpenAI честно признают, что Codex – это ранний этап:

  • Пока нет поддержки изображений для фронтенд-разработки.
  • Нет возможности корректировать агента "на лету" во время выполнения задачи.
  • Делегирование удалённому агенту занимает больше времени, чем интерактивное редактирование (к этому нужно привыкнуть).

В будущем OpenAI видят сближение двух режимов взаимодействия: real-time "парное программирование" с AI и асинхронное делегирование задач агентам. Они планируют более интерактивные рабочие процессы, возможность давать указания в середине задачи, обсуждать стратегии реализации и получать проактивные обновления о прогрессе. Также ожидаются более глубокие интеграции с существующими инструментами (GitHub уже есть, на очереди – issue трекеры, CI-системы, Codex CLI).

Заключение: революция или эволюция с турбонаддувом?

Конечно, до полной автономии AI в разработке ещё далеко. Человеческий контроль, ревью и стратегическое видение остаются ключевыми. Но инструменты вроде Codex способны кардинально изменить то, как мы работаем, освободив время от рутины для более творческих и сложных задач. Или для того, чтобы пить больше кофе, пока AI кодит ☕️.

Главный вопрос теперь – насколько быстро эта технология станет достаточно надёжной и доступной, чтобы действительно изменить индустрию, а не остаться инструментом для энтузиастов и крупных корпораций.