Инструкция от OpenAI по генерации изображений в ChatGPT

Команда OpenAI опубликовала новую статью о запуске функции генерации изображений внутри GPT-4o — мощной и нативно мультимодальной технологии, которая теперь доступна пользователям ChatGPT.

Чтобы сэкономить ваше время и помочь быстрее внедрить эти возможности в рабочие процессы, мы перевели статью на русский язык.

Читайте, применяйте и улучшайте визуальную часть своих проектов!

В OpenAI мы давно считаем, что генерация изображений должна быть одной из основных возможностей наших языковых моделей. Именно поэтому мы встроили наш самый продвинутый генератор изображений в GPT‑4o.

Результат — генерация изображений, которые не только красивы, но и полезны.

Полезная генерация изображений

От первых наскальных рисунков до современных инфографик — люди использовали визуальные образы для общения, убеждения и анализа, а не только для украшения. Современные генеративные модели способны создавать сюрреалистичные, захватывающие сцены, но с трудом справляются с «рабочими» изображениями, которые нужны людям для обмена информацией и её создания. От логотипов до диаграмм — изображения могут передавать точный смысл, особенно когда они дополнены символами, отсылающими к общему языку и опыту.

Генерация изображений с помощью GPT‑4o особенно хороша в точной передаче текста, следования инструкциям и использовании встроенной базы знаний и контекста чата — включая преобразование загруженных изображений или использование их в качестве визуального вдохновения. Эти возможности позволяют создавать именно те изображения, которые вы представляете, помогая вам эффективнее доносить идеи через визуальные средства и превращая генерацию изображений в практичный инструмент с высокой точностью и мощностью.

📹 Ниже — ссылки на видеоинструкции, с которыми вы можете ознакомиться.

Если вы хотите смотреть видео на русском языке, откройте их в Яндекс.Браузере и включите автоматический перевод — браузер сам переведёт видео на русский.

Согласованность персонажей

Генерация текста

Прозрачные слои

Подробные инструкции

Визуальный рестайлинг

Улучшенные возможности

Мы обучили модель не просто понимать, как изображение связано с текстом, но и как разные изображения связаны между собой. Благодаря этому и дополнительной настройке после обучения модель теперь умеет «мысленно» работать с визуальной информацией — она создаёт изображения, которые не только выглядят хорошо, но и точно передают смысл, сохраняют стиль и учитывают контекст.

Отображение текста

Одна картинка может сказать больше тысячи слов, но иногда достаточно пары слов в нужном месте, чтобы значительно усилить смысл изображения. Способность 4o сочетать точные символы с визуальным рядом превращает генерацию изображений в полноценный инструмент визуальной коммуникации.

Многоэтапная генерация

Поскольку генерация изображений теперь встроена напрямую в GPT‑4o, вы можете уточнять и дорабатывать изображения в формате обычного диалога. GPT‑4o понимает контекст чата — и изображения, и текст — поэтому сохраняет согласованность на всех этапах.
Например, если вы разрабатываете персонажа для видеоигры, его внешний вид будет оставаться единым и последовательным на протяжении всех ваших изменений и экспериментов.

Следование инструкциям

Генерация изображений в GPT‑4o точно следует подробным промптам, уделяя внимание деталям. В то время как другие системы начинают испытывать трудности при 5–8 объектах, GPT‑4o справляется с 10–20 разными объектами. Более тесная связь между объектами, их признаками и взаимосвязями обеспечивает лучший контроль над результатом.

Обучение в контексте

GPT‑4o может анализировать загруженные пользователем изображения и без проблем интегрировать их детали в контекст, чтобы использовать эту информацию при генерации новых изображений.

Фотореализм и стиль

Обучение на изображениях с огромным разнообразием визуальных стилей позволяет модели создавать или преобразовывать изображения максимально правдоподобно.

A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

A realistic underwater scene with dolphins swimming through the windows of an abandoned subway car, with bubbles and detailed water flow accurately simulated.

Generate a photorealistic image of farmer’s market in toronto on a saturday in summer 2006, it’s a beautiful late june day, people are shopping and eating sandwiches. in focus should be a young asian girl wearing denim overalls and sipping on a strawberry banana smoothie – rest can be blurred. the photo should be reminiscent of that a digital camera from 2006 would take, with a timestamp like a printed photo would have. aspect ratio should be 3:2

Ограничения

Наша модель не идеальна. Мы осознаём, что на данный момент существуют различные ограничения, и будем работать над их устранением в следующих обновлениях модели после первоначального запуска.

Безопасность

В соответствии с нашей Model Spec, мы стремимся максимально расширить творческую свободу, поддерживая ценные сценарии использования — такие как разработка игр, исследование истории и образование — при этом сохраняя высокие стандарты безопасности.
В то же время по-прежнему крайне важно блокировать запросы, нарушающие эти стандарты. Ниже представлены направления, в которых мы оцениваем риски и продолжаем работать над тем, чтобы обеспечивать безопасный, полезный и креативный контент для пользователей.

Подтверждение источника через C2PA и внутренний обратимый поиск

Все сгенерированные изображения включают метаданные C2PA, указывающие, что изображение было создано с помощью GPT‑4o — это обеспечивает прозрачность.
Также мы разработали внутренний инструмент поиска, который использует технические характеристики изображений, чтобы помочь определить, действительно ли контент был создан нашей моделью.

Блокировка недопустимого контента

Мы продолжаем блокировать генерацию изображений, которые нарушают наши политики контента — например, изображения сексуального насилия над детьми и дипфейки с сексуальным подтекстом.
Когда в запросе упоминаются реальные люди, мы применяем более жёсткие ограничения к тому, какие изображения можно создавать — особенно строго контролируется контент с наготой и жестоким насилием.

Как и при любом запуске, вопрос безопасности — это не разовая задача, а постоянное направление работы. По мере того как мы получаем больше информации о реальном использовании модели, мы будем корректировать наши политики.

Безопасность с помощью логического мышления

Аналогично нашему проекту Deliberative Alignment, мы обучили языковую модель, способную рассуждать на основе написанных человеком и интерпретируемых требований к безопасности.
Эта модель использовалась на этапе разработки, чтобы выявить и устранить неоднозначности в политике.

В сочетании с мультимодальными улучшениями и существующими методами безопасности, применяемыми в ChatGPT и Sora, это позволяет нам модерировать как входной текст, так и выходные изображения в соответствии с нашими правилами.

Доступ и доступность

Генерация изображений с помощью GPT‑4o начинает развёртываться уже сегодня для пользователей тарифов Plus, Pro, Team и Free — как генератор изображений по умолчанию в ChatGPT. В ближайшее время функция станет доступна и для тарифов Enterprise и Edu.
Также она уже доступна в Sora.

Для тех, кто по-прежнему любит DALL·E, — он остаётся доступен через специальную версию DALL·E GPT.

Разработчики также вскоре смогут использовать генерацию изображений с GPT‑4o через API — доступ будет постепенно открыт в течение следующих нескольких недель.

Создавать и настраивать изображения теперь так же просто, как вести обычный чат с GPT‑4o: просто опишите, что вам нужно, включая, при необходимости:

формат (например, соотношение сторон),
точные цвета (с помощью HEX-кодов),
прозрачный фон, и другое.

Из-за повышенной детализации картинки могут генерироваться немного дольше — иногда до одной минуты.

С полным оригинальным текстом статьи можно ознакомиться ЗДЕСЬ

📌 Хотите применить эти обновления с пользой для бизнеса — не только ради эксперимента?
Мы подготовили статью о том, как использовать новые обновления GPT‑4o для визуалов, креативов и задач бизнеса.

👉 Читать статью

А если вы задумывались о внедрении искусственного интеллекта в ваш бизнес, но не знаете в какие процессы его встроить - записывайтесь на бесплатную консультацию

Мы покажем, как он может работать в вашем бизнесе.

📲 Наш Telegram-канал

👍 Ставьте реакции, если было полезно!