Как я делал ролик с нейросетями
Недавно завершился семинар по искусственному интеллекту в ивент-индустрии, и начался он с ролика, который был полностью создан с помощью нейросетей. Этот ролик вызвал яркие эмоции у участников — впечатления были настолько сильными, что вскоре видео разлетелось по чатам, набирая популярность и превращаясь в настоящий вирус.
Получив множество вопросов и просьб раскрыть детали, я решил рассказать здесь, как именно мне удалось создать этот ролик.
Вечером 28-го октября, прямо накануне конференции по искусственному интеллекту в бизнесе, я осознал: все ключевые организационные задачи уже завершены. Оставшееся время, словно подарок, позволило задуматься — почему бы не сделать открывающий ролик для конференции?
В голову сразу пришла мысль: а почему бы не сделать песню? Хип-хоп казался логичным выбором. Во-первых, потому что этот стиль не требует сложных музыкальных ходов, и, честно говоря, я не был уверен, что смогу создать что-то более мелодичное. А во-вторых, хип-хоп обладает энергией, ритмом, он сразу привлекает внимание.
Итак, первый шаг — текст. Как и многие мои тексты, он начался в диалоге с моим писательским ассистентом в чате GPT.
напиши текст для песни в стиле рэп содержание такое: Сегодня пришло время, когда люди становятся умнее подключая сее электронные мозги. Кто первый подключит тот станет круче, и сможет заработать больше других. Мозги прокачать это не сложно, но научиться ими думать это совершенно другая проблема. Тут нужна помощь. И лучше всех это делает на супер гуру Андрей Шешенин, который давно запряг нейросети работать на него и в консалтинге и в телеграм и в интернете должен быть куплет и припев
Текст сразу показался мене давольно удачным.
[Куплет]
Век технологий — на старте прогресса,
Теперь не качаем мышцы, а схемы процессов.
Электронные мозги — вот что в ходу,
Кто первый подключит, взлетит на виду.
Не просто умней, но быстрее, чем все,
Заработать, как царь, — это в новой игре.
Но вот парадокс, есть нюанс непростой:
Качать — это дело, но думать с душой?
Подключил, не вопрос, но куда с этим деться?
Тут нужен свой мастер, с горящим сердцем.
[Припев]
Андрей Шешенин — гуру цифровой,
Он в консалтинге и сети, на волне иной.
С нейросетью по жизни, как самурай,
Подключай свои мозги, но думай, не отставай!
[Куплет 2]
В Телеграме он как рыба в воде,
Электронный интеллект ведёт за собой везде.
Слушай советы — взлетишь на любой высоте,
Кто с умом работает, тому успех по душе.
Бизнес, продажи, прокачка до вершин,
С Андреем научишься, как быть машин,
Чтоб мозги электронные круто включать,
Но при этом не забыть, как по-человечьи думать опять.
[Припев]
Андрей Шешенин — гуру цифровой,
Он в консалтинге и сети, на волне иной.
С нейросетью по жизни, как самурай,
Подключай свои мозги, но думай, не отставай!
Я попробовал поправить некоторые места вместе с ИИ, но понял, что проще сделать это в ручную. Уквально через 5 минут у меня был отличный на мой взгляд текст.
Век технологий — на старте прогресса,
Качаем не пресс, а схемы процессов.
Сегодня в работе тот станет круче,
Кто первый себе нейросети подключит.
Не просто умней, но быстрее, чем все,
Срубит бабла в этой новой игре.
Но вот парадокс, есть нюанс непростой:
Как неросетку наполнить душой?
Подключить не вопрос, это плёвый процесс?
Но нужен наставник, что верит в прогресс.
Андрей Шешенин — гуру цифровой,
Он в ивенте на волне передовой.
С нейросетью по жизни, решает на раз,
Беги к нему от отстать тебе не даст!
В Телеграме он как рыба в воде,
Электронный интеллект помогает везде.
Слушай советы — получишь доход,
Не жмоться на помощь того кто поймёт.
Бизнес, продажи, прокачка по полной,
С Андреем в контакте, карман будет полный,
Чтоб мозги электронные круто включать,
Надо сначала свои прокачать.
Андрей Шешенин — гуру цифровой,
Он в ивенте на волне передовой.
С нейросетью по жизни, решает на раз,
Беги к нему от отстать тебе не даст!
Теперь пришло время положить текст на музыку
Первым кандидатом на создание музыки была нейросеть https://www.udio.com
Но от нее пришлось сразу отказаться, так как русский вокал был мало похож на русский язык.
Тогда я перешел в https://suno.com
Дальше начались настоящие трудности. Русский язык, казалось бы, был под контролем, но возникла серьезная проблема — управление ударениями. Нейросеть иногда ошибалась в расстановке акцентов, и поправить это вручную было практически невозможно.
С музыкой ситуация была не проще. Выбор стиля вроде бы позволял задать общее настроение, но детали, такие как темп, торжественность или личная интонация, практически не поддавались настройке. Да, нейросеть в какой-то мере следовала моим инструкциям, но окончательный результат оставался неопределенным.
По сути, у меня оставался один путь — генерировать разные варианты и ждать, когда удастся поймать нужный результат. И вот, на шестой попытке получилось именно то звучание, к которому я стремился. Этот трек я сразу скачал к себе на компьютер.
Делаем видео.
Сначала я даже не думал о видеоряде — казалось, что одного трека будет достаточно, чтобы произвести эффектный выход на сцену. Но ради эксперимента захотелось создать виртуальных рэперов, которые произносили бы текст точно по ритму, слово в слово, под музыку.
Для этого я сгенерировал изображение и решил попробовать его анимировать через сервис https://klingai.com/. Результат меня порадовал — ожившая картинка выглядела на удивление живо и динамично.
Тогда я решил подойти к созданию видеоряда всерьез. Понимая, что сгенерировать все кадры с нуля будет затруднительно, я решил использовать готовые изображения, частично заимствовав их у коллег, которые также работают с сервисом https://klingai.com/. Эти кадры помогли мне создать фантастическую атмосферу, которая идеально подходила для фона моего выступления.
Чтобы сделать ролик более связанным с презентацией, я использовал все изображения, которые применял в оформлении слайдов, и оживил их. В результате получился не только динамичный и яркий видеоряд, но и отсылки к ключевым элементам предстоящей презентации. На мой взгляд, это усилило эффект и сделало видео более целостным и запоминающимся.
Самой большой сложностью оказались моменты липсинга, когда герой на экране должен был идеально попадать в движения губ, соответствующие произносимым словам. Для этого в сервисе Клинг есть специальная функция, которой я и воспользовался.
Загвоздка была в том, что сервис позволяет синхронизировать липсинг только на короткие отрывки по пять секунд. Это допустимо, когда такие отрезки стоят в начале трека, но если они находятся в середине, точно попасть так, чтобы видео не дергалось, а звук не прыгал, оказалось задачей не из легких.
Поэтому я сначала собрал весь видеоролик, проставив пустые заглушки вместо липсинговых фрагментов. Затем я вырезал эти отрезки с заглушками, создал отдельные звуковые файлы, соответствующие нужным моментам, и синхронизировал их с анимацией виртуальных рэперов. В итоге, вернув каждый фрагмент на свое место, я добился плавного и качественного результата, на удивление точного и живого.
Вот и всё.
С момента, когда у меня возникла идея, и до создания готового ролика прошло всего около трёх с небольшим часов. В этом процессе участвовали только я и мой старенький ноутбук. Технических проблем не возникло, всё шло гладко.
Качество конечного материала оказалось на достойном уровне. Когда мы показали ролик на большом экране, профессионалы в области видео отметили, что такой уровень вполне приемлем для работы, и их ничто не смутило.