Инструкция от OpenAI по генерации изображений в ChatGPT
Команда OpenAI опубликовала новую статью о запуске функции генерации изображений внутри GPT-4o — мощной и нативно мультимодальной технологии, которая теперь доступна пользователям ChatGPT.
Чтобы сэкономить ваше время и помочь быстрее внедрить эти возможности в рабочие процессы, мы перевели статью на русский язык.
Читайте, применяйте и улучшайте визуальную часть своих проектов!
В OpenAI мы давно считаем, что генерация изображений должна быть одной из основных возможностей наших языковых моделей. Именно поэтому мы встроили наш самый продвинутый генератор изображений в GPT‑4o.
Результат — генерация изображений, которые не только красивы, но и полезны.
Полезная генерация изображений
От первых наскальных рисунков до современных инфографик — люди использовали визуальные образы для общения, убеждения и анализа, а не только для украшения. Современные генеративные модели способны создавать сюрреалистичные, захватывающие сцены, но с трудом справляются с «рабочими» изображениями, которые нужны людям для обмена информацией и её создания. От логотипов до диаграмм — изображения могут передавать точный смысл, особенно когда они дополнены символами, отсылающими к общему языку и опыту.
Генерация изображений с помощью GPT‑4o особенно хороша в точной передаче текста, следования инструкциям и использовании встроенной базы знаний и контекста чата — включая преобразование загруженных изображений или использование их в качестве визуального вдохновения. Эти возможности позволяют создавать именно те изображения, которые вы представляете, помогая вам эффективнее доносить идеи через визуальные средства и превращая генерацию изображений в практичный инструмент с высокой точностью и мощностью.
📹 Ниже — ссылки на видеоинструкции, с которыми вы можете ознакомиться.
Если вы хотите смотреть видео на русском языке, откройте их в Яндекс.Браузере и включите автоматический перевод — браузер сам переведёт видео на русский.
Улучшенные возможности
Мы обучили модель не просто понимать, как изображение связано с текстом, но и как разные изображения связаны между собой. Благодаря этому и дополнительной настройке после обучения модель теперь умеет «мысленно» работать с визуальной информацией — она создаёт изображения, которые не только выглядят хорошо, но и точно передают смысл, сохраняют стиль и учитывают контекст.
Отображение текста
Одна картинка может сказать больше тысячи слов, но иногда достаточно пары слов в нужном месте, чтобы значительно усилить смысл изображения. Способность 4o сочетать точные символы с визуальным рядом превращает генерацию изображений в полноценный инструмент визуальной коммуникации.
Поскольку генерация изображений теперь встроена напрямую в GPT‑4o, вы можете уточнять и дорабатывать изображения в формате обычного диалога. GPT‑4o понимает контекст чата — и изображения, и текст — поэтому сохраняет согласованность на всех этапах.
Например, если вы разрабатываете персонажа для видеоигры, его внешний вид будет оставаться единым и последовательным на протяжении всех ваших изменений и экспериментов.
Генерация изображений в GPT‑4o точно следует подробным промптам, уделяя внимание деталям. В то время как другие системы начинают испытывать трудности при 5–8 объектах, GPT‑4o справляется с 10–20 разными объектами. Более тесная связь между объектами, их признаками и взаимосвязями обеспечивает лучший контроль над результатом.
GPT‑4o может анализировать загруженные пользователем изображения и без проблем интегрировать их детали в контекст, чтобы использовать эту информацию при генерации новых изображений.
Обучение на изображениях с огромным разнообразием визуальных стилей позволяет модели создавать или преобразовывать изображения максимально правдоподобно.
Ограничения
Наша модель не идеальна. Мы осознаём, что на данный момент существуют различные ограничения, и будем работать над их устранением в следующих обновлениях модели после первоначального запуска.
Безопасность
В соответствии с нашей Model Spec, мы стремимся максимально расширить творческую свободу, поддерживая ценные сценарии использования — такие как разработка игр, исследование истории и образование — при этом сохраняя высокие стандарты безопасности.
В то же время по-прежнему крайне важно блокировать запросы, нарушающие эти стандарты. Ниже представлены направления, в которых мы оцениваем риски и продолжаем работать над тем, чтобы обеспечивать безопасный, полезный и креативный контент для пользователей.
Подтверждение источника через C2PA и внутренний обратимый поиск
Все сгенерированные изображения включают метаданные C2PA, указывающие, что изображение было создано с помощью GPT‑4o — это обеспечивает прозрачность.
Также мы разработали внутренний инструмент поиска, который использует технические характеристики изображений, чтобы помочь определить, действительно ли контент был создан нашей моделью.
Блокировка недопустимого контента
Мы продолжаем блокировать генерацию изображений, которые нарушают наши политики контента — например, изображения сексуального насилия над детьми и дипфейки с сексуальным подтекстом.
Когда в запросе упоминаются реальные люди, мы применяем более жёсткие ограничения к тому, какие изображения можно создавать — особенно строго контролируется контент с наготой и жестоким насилием.
Как и при любом запуске, вопрос безопасности — это не разовая задача, а постоянное направление работы. По мере того как мы получаем больше информации о реальном использовании модели, мы будем корректировать наши политики.
Безопасность с помощью логического мышления
Аналогично нашему проекту Deliberative Alignment, мы обучили языковую модель, способную рассуждать на основе написанных человеком и интерпретируемых требований к безопасности.
Эта модель использовалась на этапе разработки, чтобы выявить и устранить неоднозначности в политике.
В сочетании с мультимодальными улучшениями и существующими методами безопасности, применяемыми в ChatGPT и Sora, это позволяет нам модерировать как входной текст, так и выходные изображения в соответствии с нашими правилами.
Доступ и доступность
Генерация изображений с помощью GPT‑4o начинает развёртываться уже сегодня для пользователей тарифов Plus, Pro, Team и Free — как генератор изображений по умолчанию в ChatGPT. В ближайшее время функция станет доступна и для тарифов Enterprise и Edu.
Также она уже доступна в Sora.
Для тех, кто по-прежнему любит DALL·E, — он остаётся доступен через специальную версию DALL·E GPT.
Разработчики также вскоре смогут использовать генерацию изображений с GPT‑4o через API — доступ будет постепенно открыт в течение следующих нескольких недель.
Создавать и настраивать изображения теперь так же просто, как вести обычный чат с GPT‑4o: просто опишите, что вам нужно, включая, при необходимости:
Из-за повышенной детализации картинки могут генерироваться немного дольше — иногда до одной минуты.
С полным оригинальным текстом статьи можно ознакомиться ЗДЕСЬ
📌 Хотите применить эти обновления с пользой для бизнеса — не только ради эксперимента?
Мы подготовили статью о том, как использовать новые обновления GPT‑4o для визуалов, креативов и задач бизнеса.
А если вы задумывались о внедрении искусственного интеллекта в ваш бизнес, но не знаете в какие процессы его встроить - записывайтесь на бесплатную консультацию
Мы покажем, как он может работать в вашем бизнесе.