Новая нейросеть Google превращает текст в 3D-картинки

Google представила новую нейросеть DreamFusion, способную генерировать трёхмерные изображения на основе заданного текстового описания. В отличие от аналогов, рисующих только двухмерные картинки, в данном случае получается полноценная 3D-модель, с которой можно взаимодействовать.

Генератор DreamFusion не требует обучения на 3D-данных, которые не были бы доступны в требуемом масштабе. Вместо этого нейросеть изучает трёхмерное представление, используя двухмерные изображения нужного объекта с разных ракурсов. Исследовательская группа использовала для этой цели подсказки, зависящие от взгляда, например, «вид в профиль» или «вид анфас».

По сравнению с Dream Fields (предыдущей версией ИИ) DreamFusion создаёт повторно освещаемые 3D-объекты с более высоким разрешением и глубиной и на основе вводимого текста. Несколько 3D-моделей, созданных с помощью Dreamfusion, также можно объединить в одну сцену.

«Наш подход не требует никаких 3D-обучающих данных и модификаций модели распространения изображений, демонстрируя эффективность предварительно обученных моделей распространения изображений в качестве априорных», — пишет исследовательская группа Google.

На специальном сайте можно больше почитать о нейросети и посмотреть больше примеров.