Как пользоваться нейросетью Kandinsky в 2024 году

Kandinsky от «Сбера» — инструмент для генерации реалистичных изображений, способный составить конкуренцию популярным Midjourney и Stable Diffusion. Даем инструкцию, как пользоваться Kandinsky в 2024 году, абсолютно бесплатно и без ограничений.

Сервис генерации изображений Kandinsky от «Сбера» способен не только генерировать, редактировать, дорисовывать и объединять несколько изображений в одно новое, но и создавать анимацию и видео ролики. Кстати, в нашем рейтинге лучших нейросетей для генерации изображений Kandinsky занял 2 место, сразу после Midjourney.

В статье делимся способами использования нейросети через сайты, чат-боты и приложения. Даем подробную инструкцию, как пользоваться нейросетью Kandinsky и составлять качественные запросы.

Что такое Kandinsky простыми словами

Kandinsky — это нейросеть от «Сбера» для генерации изображений, анимации и видео по текстовым запросам пользователя.

Первая версия этого сервиса появилась в ноябре 2021 года, тогда модель называлась ruDALL-E XL. В ходе многих обновлений и улучшений модели ruDALL-E появилась первая версия нейросети, названная Kandinsky.

В апреле 2023 вышла версия Kandinsky 2.1, получившая широкую популярность пользователей. Тогда версия 2.1 все еще сильно уступала популярным зарубежным аналогам Midjourney и Stable Diffusion — результаты их генераций были более реалистичны и детализировВ июле 2023 года Kandinsky обновился до версии 2.2, основной фишкой которой стала генерация фотореалистичных изображений с высоким качеством. Спустя несколько месяцев эта версия была дополнена возможностью генерировать короткие 4-секундные видеоролики по текстовым запросам.

Пример фотореализма и высокого качества при генерации изображенийисточник

В ноябре 2023 на конференции AI Journey «Сбер» представил новую версию — Kandinsky 3.0 и Kandinsky Video. Самым интересным обновлением стало знакомство нейросети с русской культурой и фольклором. Нейросеть заколлабили с отечественными актерами, знаменитостями, персонажами, героями фильмов и сказок, элементами российской и советской архитектуры, а также с мотивами русских народных промыслов — гжели, жостовской росписи и других.

Баба Яга, сгенерированная по простейшему промту «Баба Яга» без описания деталейисточник

По состоянию на май 2024 года наиболее актуальной версией нейросети является Kandinsky 3.1.

Что умеет Kandinsky

Работа сервиса Kandinsky 3.0 происходит в пяти основных форматах. Подробнее о каждом.

Генерация изображений по текстовому запросу. Самый популярный режим для нейросетей. Создание изображения происходит только на основе введенного описания и указанных деталей.

Генерация изображения на основе текстового запросаисточник

Создание новых изображений на основе загруженных. С помощью нейросети Kandinsky можно слегка изменить исходное изображение, заменить лицо на портрете или внешний облик объекта, сохранив при этом основные детали и стиль загруженной картинки или фото.

Генерация нового портрета на основе загруженногоисточник

2. Дорисовка деталей у готового изображения. Изображение может быть загруженным пользователем или сгенерированным нейросетью.

Исходное сгенерированное изображение рыбака с промтомисточник

3. Генерация анимации. В сервисе Fusion Brain доступна генерация анимационных роликов. Пользователь может написать текстовый запрос для нескольких сцен, длительностью 4 секунды каждая, добавлять или удалять дополнительные сцены и их описания. Чем больше описано сцен — тем дольше ждать окончания генерации.

Дорисованные детали на исходном сгенерированном изображенииисточник

4. Генерация коротких видео. Генерация видео происходит более сложно, чем анимации, у нее пока нет расширенных настроек и для всего видеоролика имеется только одно окно для ввода текстового запроса. Время генерации видео, в среднем, — около 4 минут. Качество видео и соответствие результата запросу пока крайне низкое.

7 способов начать пользоваться Kandinsky

В первую очередь советуем ознакомиться с разделом нейросети Kandinsky на сайте «Сбера». Там перечислены ссылки на всевозможные официальные источники, где можно попробовать генерацию изображений и видео.

Рассмотрим подробнее, что представляет каждый из них.

1. Официальный сайт

Официальной страницей Kandinsky, где можно попробовать работу в самой свежей версии и все его функции, считается сайт Fusion Brain.

Fusion Brain — это портал, где команда института AIRI (научно-исследовательский институт искусственного интеллекта) выкладывает интересные модели нейросетей, чтобы желающие могли попробовать современные инструменты и изучить новую технологию.

Первой нейросетью, выложенной на портал, стал именно Kandinsky. Команда использовала открытый исходный код приложения и создала сайт с удобным интерфейсом.

Интерфейс графического редактора Fusion Brainисточник

На сайте можно:

генерировать изображения по текстовому запросу в графическом редакторе;
создавать новые изображения на основе загруженного;
стирать лишние детали изображения ластиком;
генерировать изображения и анимацию разного качества и ориентации;
скачивать готовые картинки на компьютер;
генерировать изображения в разных стилях;
вводить промты и негативные промты, по-простому — то, что должно быть на изображении и то, чего там быть НЕ должно;
генерировать анимационные ролики, состоящие из нескольких несвязанных сцен;
генерировать видео.

Дополнительно стоит отметить, что сервис полностью русскоязычный, интуитивно-понятный и имеет подсказки и горячие клавиши для работы в редакторе.

Горячие клавиши для работы в редакторе Fusion Brainисточник:

2. Сайт с урезанным функционалом

Генерация изображений по текстовому запросу также доступна на сайте ruDALL-E, но с урезанным функционалом.

Можно выбрать последнюю версию Kandinsky 3.1 или использовать архивные 2.2, 2.1, ruDALL-E Kandinsky, ruDALL-E Malevich, ruDALL-E Emojich.

Правда, сайт не всегда корректно работает и иногда не отправляет формы с запросом на сервер.

3. VK-бот

Сгенерировать изображение по запросу в выбранной ориентации (1:1, 3:2, 2:3) можно отправив команду чат-боту ВКонтакте.

При использовании этого способа нельзя задать расширенные настройки или загрузить другое изображение для генерации на его основе. Однако нейросеть в чат-боте пригодится, например, для быстрой визуализации идей, подбора картинки-анонса к посту или статье. Версия Kandinsky в чат-ботах не всегда самая актуальная, поэтому качество может быть ниже, чем при генерации через Fusion Brain.

4. Telegram-бот для создания изображений

Оперативно создать изображение можно и в боте мессенджера Telegram Kandinsky by Sber AI. Он появился для версии 2.1 и до сих пор считается актуальным.

2.2 и 2.1.

Среди вариантов работы чат-бота в Telegram можно отметить:

умение генерировать изображения по описанию (все версии);
возможность смешивать изображения в одно (на версии 2.1 и 2.2);
переносить стиль на изображение (на версии 2.2);
генерировать вариации изображения (на версии 2.1 и 2.2);
создавать стикеры (на версии 2.2).

5. Telegram-бот для генерации видео

В мессенджере Telegram также существует отдельный чат-бот для создания видеороликов, он называется Kandinsky Video by Sber AI.kurs-profeciya.ru

Так как функция генерации видео появилась недавно и доступна не всем пользователям, для использования чат-бота с целью генерации видео необходимо оставить заявку. Только после ее одобрения можно будет протестировать функционал Kandinsky.

Интерфейс чат-бота для генерации видео и запрос на использованиеисточник

6. Приложение «Салют»

Генерировать изображения можно с помощью виртуального ассистента в мобильном приложении «Салют» или на умных устройствах под управлением Салют ТВ по команде «Включи художника».

Страница android-приложения «Салют» в Google Playисточник

7. Интегрировать API в свое приложение или сайт

Продвинутые пользователи, имеющие навыки программирования, владельцы собственного сайта или мобильного приложения, могут интегрировать Kandinsky в свой проект.

Для этого необходимо подключить Fusion Brain по API к своему продукту.

Интеграция своего сервиса по API к Fusion Brainисточник

Инструкция по использованию нейросети Kandinsky

Инструкция как пользоваться нейросетью Kandinsky от Сбербанка будет отличаться в зависимости от цели назначения.

С кальцием и витамином DВ состав «Растишки» входят вещества, необходимые для роста ребенка. Растите со вкусом!

В чат-ботах и на упрощенных сайтах обычно достаточно просто ввести обычный текстовый запрос и выбрать минимум настроек для получения изображения. В версии же на сайте Fusion Brain настроек и тонкостей гораздо больше — с их помощью можно полностью раскрыть потенциал нейросети.

Рассмотрим подробнее процесс создания изображений, анимации и видео на Fusion Brain.

Как создать картинку

Первым этапом создания картинки нужно выбрать ее качество и разрешение. Отдельного выбора качества на сайте нет, оно будет автоматически изменяться при выборе ориентации. Например, качество стандартной квадратной картинки 1:1 по умолчанию будет 1024×1024 px.

Выбор качества и ориентации изображенияисточник

Вторым этапом нужно сделать самое основное — грамотно сформулировать промт, или по-простому — запрос. Вводим запрос в окошко под областью генерации и смотрим первый результат.

Результат первой генерацииисточник

Внимательно оцениваем результат, изучаем детали, концентрируем внимание на том, что получилось неудачно. Вписываем это в поле «негативный промт».

Результат генерации после указания негативного промтаисточник

Оцениваем еще раз, повторно корректируем ненужные детали негативным промтом и вписываем недостающие детали в обычный промт.

Дополнение негативного промтаисточник

Совершаем эти действия до тех пор, пока результат не приблизится к ожидаемому.

Стоит отметить, что при таких точечных правках объект и его фон в целом остаются такими же, меняются только детали.

Конечный результат генерацииисточник: Hi-Tech Mail

Готовое изображение можно скачать на компьютер

Скачивание изображенияисточник: Hi-Tech Mail

Как редактировать готовое изображение

Редактировать детали картинки можно не только с помощью корректировки промта, но и с использованием инструмента «ластик». Он может понадобиться, если картинка сгенерирована хорошо, но имеет слишком крупный план или основной объект не дорисован, обрезан в ненужном месте.

Исходное изображение для дорисовки деталейисточник:

Передвигаем область генерации в то место, где требуется дорисовка и описываем с помощью запроса что именно там должно быть.

Важный момент: для качественной дорисовки новая область генерации должна захватывать первый рисунок. Чем больше это пересечение и захват, тем больше шансов, что вторая картинка будет продолжением первой.

Новый запрос и дорисовка областиисточник

Вторая дорисовка части изображенияисточник

Дорисовывать детали изображения и продолжать картинку можно до тех пор, пока она не удовлетворит запрос.

Результат дорисовки фотореалистичного изображенияисточник

Как создать анимацию

Для создания анимации нужно перейти на вкладку «Видео» в Fusion Brain и выбрать в поле «Модель» пункт «Анимация».

Подготовка к генерации анимацииисточник

Далее стоит определить количество сцен, которые необходимо сгенерировать, и написать запрос для каждой из них. Дополнительной настройкой является указание направления камеры для каждой из сцен.

Важная деталь: чем больше описано сцен для генерации, тем выше будет время ожидания готового результата. В самом начале стоить протестировать свою мысль на одной-двух сценах, чтобы понять соответствует ли результат первоначальной идее.

Интерфейс генератора анимации и описание сценисточник

Созданную анимацию можно скачать на компьютер и использовать, она будет иметь расширение .MP4.

Как создать видео

Процесс создания видео практически идентичен созданию анимации, но имеет меньшее количество настроек.

У видео нет разбивки на сцены и настроек направления камеры. Генерация в среднем занимает около 4 минут, а само видео имеет продолжительность около 8 секунд.

Интерфейс создания видеоисточник

Итоговые ролики в версии Kandinsky 3.0 имеют низкое качество, выходят очень смазанными, пиксельными и напоминают видео из 2000-х, которые передавались через Bluetooth и ИК-порт на телефонах.

Советы, как правильно составлять запрос нейросети

Составление грамотного запроса — самая важная часть работы с нейросетью, без этого понять, как пользоваться Kandinsky в 2024 году, не выйдет. Разберемся подробнее как составлять запрос.

1. Грамотно формулируйте запрос, указывайте важные детали

В самом простом виде запрос должен содержать три составляющих.

Описание объекта. Его внешний вид, детали облика, эмоции (улыбается, плачет, злой).

Для людей — возраст (молодая девушка, пожилой мужчина, ребенок), цвет волос, цвет глаз, наличие веснушек и другие важные детали.

Для животных — порода, вид, тип шерсти, ее цвет.

Для неживых объектов — текстура (гладкий, шершавый, матовый), материал (мрамор, камень, дерево, кожа).

Фон и его детали. Время года (лето, зима), время суток (день, ночь), погодные условия (ясная погода, снегопад), наличие дополнительных объектов (улица с машинами, свет уличных фонарей).
Стиль. Можно выбрать из списка доступных в сервисе стилей или описать свой собственный.

После того как запрос готов, можно генерировать картинку и вносить корректировки в зависимости от полученного результата.

2. Повлиять на результат можно с помощью негативных промтов

Нейросеть, как и человек, может мыслить стереотипно и понимать всю информацию, данную запросом, в буквальном смысле. Например, если написать «лиса», то получится исключительно рыжий зверек, а «помидор» всегда будет красным.

Чтобы преодолеть эти нюансы, стоит вписывать желаемый результат в промт, например «чернобурая лиса», а в негативный промт нежелательный результат, например «рыжая лиса».

3. Писать запросы однозначными, не использовать метафоры и намеки

Нейросети пока не способны распознавать намеки, крылатые выражения и пословицы и другие выразительные фигуры речи. Поэтому в запросах их лучше не использовать. Вместо них нужно давать больше конкретики и четких указаний в запросе.

Попытка сгенерировать иллюстрацию к поговорке «Толочь воду в ступе»источник

Примеры изображений, сгенерированных нейросетью Kandinsky

Промт: Красивая молодая девушка в лавандовом поле, красное платье, светлые волосы, плетеная корзинка в руках. Лето, ясная солнечная погода. Реализм, студийное фото, высокая детализация.

Генерация девушки с корзинкой в лавандовом полеисточник

Промт: Полосатый серый кот. Деревня, скотный двор. Осень, облачная погода, листопад. Картина маслом, высокая детализация.

Генерация деревенского кота в технике рисования маслом на холстеисточник: Kandinsky

Промт: Молодой парень катается на серфинге по волнам. Лето, ясная погода, солнечный свет, яркие краски. Стиль Айвазовский, высокая детализация.

Молодой парень катается на серфинге в стиле картин Айвазовскогоисточник: Kandinsky

Промт: Ваза с суккулентами и кактусами на окне. Цвета сочные, зеленые, салатовые, бордовые, желтые. Солнечный свет, высокая детализация, студийное фото.

Ваза с суккулентамиисточник: Kandinsky

Промт: Машина Peugeot 206 красного цвета. Фон природа, лес. Ясная солнечная погода, лето. Студийное фото, высокая детализация, фотография, высокое разрешение.

Генерация машины определенной марки и моделиисточник: Kandinsky

Плюсы и минусы нейросети Kandinsky

Разработчики нейросети Kandinsky радуют пользователей постоянными обновлениями функционала, свежими версиями и максимальной приближенностью качества к известным аналогам — зарубежным Midjourney, Dall-E и Stable Diffusion, но типичные недостатки нейросетей не обошли стороной. При генерациях все еще можно получить шесть пальцев, кривые глаза, проблемы с линзами и зеркалами и многие другие типичные «ляпы» нейросетей.

Ляп с человеком-собакой по запросу «Фермер»источник