Новый алгоритм дипфейка позволяет редактировать речь диктора в видео

Для работы нейросети нужно не менее 40 минут оригинального видео со стенограммой того, что озвучивает диктор. Программа изучает его мимику, сопоставляет фрагменты текста с движениями мышц и строит трехмерную модель «говорящей головы». Дело за малым – составить последовательность жестов под новый текст, сгенерировать нужные текстуры и наложить их на модель.

В этой системе применяется технология машинного обучения Neural Rendering, которая ответственна за фотореалистичное изображение. Для добавления звука в видео нужен дополнительный модуль, например, сервис VoCo, который работает по схожей схеме. Появление данного дипфейка не стало сенсацией и уже даже не вызывает удивление на фоне прочих достижений в этой сфере. Интереснее другое: создатели дипфейка сами признают, что готовят оружие для информационной войны, и выстрелит оно совсем скоро – на выборах президента США в 2020-ом.

Точнее, разработчики опасаются такого развития ситуации и поэтому хотят опередить его, познакомить мир с дипфейком для идеального саботажа новостных выпусков и различных «утечек данных». Чтобы мир, якобы, успел привыкнуть и попытался выработать иммунитет к нему. Или хотя бы подстегнуть работу по созданию методов обнаружения дипфейков, разработать новые способы расследования и определения, где правда, а где ложь. Увы, сама суть генеративно-состязательных нейросетей как раз в том, чтобы раз за разом создавать все более реалистичные фейки. И в этом машины давно превзошли нас, людей.

источник

"Популярная Механика"