Mt* представляет CM3leon: революционную модель ИИ для расширенного преобразования текста в изображение
Обладая универсальными возможностями и улучшенной производительностью, CM3leon представляет собой важный шаг на пути к созданию и пониманию изображений с более высокой точностью, открывая путь для расширенного творчества и приложений в метавселенной.
Недавно Mt* поделилась своим последним исследованием CM3leon (произносится как «хамелеон»), модели на основе преобразователя, которая достигает самых современных результатов в области преобразования текста в изображение и демонстрирует новые возможности мультимодального ИИ.
В последние годы быстро развиваются генеративные модели ИИ, способные создавать изображения из текстовых подсказок. Такие модели, как Midjourney , DALL-E 2 и Stable Diffusion , могут создавать фотореалистичные сцены и портреты из коротких текстовых описаний. В этих моделях используется метод, называемый диффузией — процесс, который включает итеративное уменьшение шума в изображении, полностью состоящем из шума, и постепенное приближение его к желаемой цели.
CM3leon использует другой подход. Будучи моделью на основе преобразователя, она использует силу механизмов внимания для взвешивания релевантности входных данных, будь то текст или изображения. Это архитектурное отличие позволяет CM3leon достигать более высоких скоростей обучения и лучшего распараллеливания, что делает его более эффективным, чем традиционные методы, основанные на диффузии.
Но необработанные показатели производительности не раскрывают полной картины. Где CM3leon действительно сияет, так это в обработке более сложных подсказок и задач редактирования изображений. Например, CM3leon может точно отобразить изображение из подсказки вроде «Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара».
Модель также отлично подходит для редактирования существующих изображений на основе текстовых инструкций в свободной форме, таких как изменение цвета неба или добавление объектов в определенных местах. Эти возможности намного превосходят возможности ведущих моделей, таких как DALL-E 2, которые в настоящее время могут быть достигнуты.
Редактирование изображений с текстовым управлением
Универсальная архитектура CM3leon позволяет плавно переключаться между текстом, изображениями и композиционными задачами. Помимо преобразования текста в изображение, CM3leon может генерировать подписи к изображениям, отвечать на вопросы о содержании изображений и даже создавать изображения на основе текстовых описаний ограничивающих рамок и карт сегментации.
Объект-изображение
Имея текстовое описание сегментации ограничивающей рамки изображения, CM3leon может сгенерировать изображение.
Результаты сверхвысокого разрешения
Отдельный этап сверхвысокого разрешения может быть интегрирован с выходом CM3leon, что значительно улучшает разрешение и детализацию. Ниже приведены четыре примера изображений для каждой подсказки: (1) Дымящаяся чашка кофе на фоне гор. Отдых во время поездки. (2) Красивая, величественная дорога во время заката. Эстетика. (3) Маленький круглый остров посреди озера. Леса вокруг озера. Высокий контраст
Успех CM3leon можно объяснить его уникальной архитектурой и методами обучения. Модель использует архитектуру преобразователя только для декодера, похожую на известные текстовые модели, но с дополнительной возможностью обработки как текста, так и изображений. Обучение включает в себя расширение поиска, основанное на недавней работе в этой области, и точную настройку инструкций для различных задач по созданию изображений и текста.
Mt* еще не объявила о планах публичного выпуска CM3leon. Но эта модель определяет новую планку для мультимодального ИИ и демонстрирует мощь таких методов, как расширение поиска и точная настройка под наблюдением. Это замечательное достижение указывает на будущее, в котором системы ИИ смогут плавно переключаться между пониманием, редактированием и созданием изображений, видео и текста.
А если вам еще больше интересна тема ИИ, вы хотите знать больше и не пропускать новинки и обзоры, подпишитесь на канал в тг, мне будет приятно -
*Организация, деятельность которой запрещена на территории Российской Федерации.