June 27, 2023

Про метавселенную

На видео Grid-guided NeRF.

На днях SDF Studio, фреймворк для 3D реконструкции локаций и объектов, который сделан на базе NeRFsudio интегрировали Neuralangelo — модель для конвертации масштабных двухмерных видео в трёхмерные NeRF сцены. SDF имеет унифицированную модульную структуру, благодаря чему можно внутри интерфейса переносить 3D реконструкцию между разными методами. Проект в опенсорсе, а добавление новых оптимизированных методов обработки визуальных данных позволит рендерить NeRF всё большему количеству людей.

Выступая на Positive Hack Days, я рассказывал какой будет настоящая метавселенная: фотореалистичная копия реальности, визуальный стиль которой можно переключать по щелчку, или наслаивать интерактивные элементы. И это будет пространство не для нас, а наших цифровых двойников, которым мы сможем передать через датасеты свои характеристики. Они будут выполнять наши поручения и фильтровать через себя весь контент/новости/спам и прочее, а нам рекомендовать, что посмотреть/послушать/купить и так далее. Потому что мы уже не успеваем следить за информацией вокруг, а они смогут быть везде сразу и всё успевать. С помощью цифровых двойников мы сможем сфокусироваться на важном для нас.

Например, после того как ты весь день занимался семьёй, творческими проектами, или пришёл домой с работы твой цифровой двойник предложит тебе посмотреть на голографическом экране или в VR шлеме концерт или фильм на котором он сегодня был. Можно и для терапии будет поговорить с ним как с зеркалом, где в отражении версия тебя, обладающая знаниями со всего мира.

И если взглянуть на тенденцию с конвертацией фоток/видео в 3D, обработкой городских локаций плюс субъектов в NeRF (включая динамические нерфы), ранние эксперименты с Free View Video (FVV), и распознаванием моушена на видео для лёгкой замены персонажей — то можно предположить, что дальше интерактив будет не с плоским контентом, а с его оцифрованными трёхмерными объектами. Даже Midjourney двигается в сторону "60 FPS fully volumetric 3D". (Ник постоянно тусит в дискорде MJ на комьюнити созвонах, подгоняет инсайды, выдумывать эту инфу причин у него особо нет). Так что количество стилизаций "Во все тяжкие", "Гарри Поттера" и прочих будет увеличиваться, а визуальное качество их будет становиться лучше. Как 3D-рендер, с персонализацией вплоть до самостоятельного выбора позиции камеры, персонажа и диалога. Где лицами можно жонглировать через дипфейки, а голос пришить через TTS модели. Или подойти к этому через что-то вроде MetaHuman Animator.

И это автоматом не означает, что метаверс будет принадлежать Google/Apple/Nvidia/ и прочим ибо у них навалом данных.

1) Потому что, помимо данных у них и навалом обвязок регуляторами. Например, Google то и дело штрафуют на сотни миллионов долларов за нарушения в сборе и хранении информации о пользователях. Причём в некоторых юрисдикциях им даже не дают запустить фичи, потому что они не могут соблюсти требования. Если они не могут сохранно держать ваши персональные и финансовые данные часто сливая или продавая их налево, есть ли смысл доверять им своего цифрового двойника? Что они через него смогут узнать о вас/ каким левым людям дадут к нему доступ/ на каких документах поставят подпись или впишут дипфеком там где вас не было?

2) Облака не вывозят нагрузки. Даже ChatGPT со всем финансированием и ресурсами от Microsoft постоянно тупит и тормозит. А мы говорим про визуальные данные, которые тяжелее и хранить и обрабатывать. Тут ведь ещё не просто один раз сосканить комнату и сделать нерф на её основе как в Immersive View, нужно актуализировать данные (особенно для массовых мест). А если ещё наслоить сюда постоянно меняющиеся интерактивные элементы, смену визуальных стилей, AI-агентов которые будут в мете постоянно генерить контент вроде арта / видео/ музыки / 3D игр про AI-агента создающего 3D игру.... Здесь стоит вспомнить историю Boomy, через которых за 2 года сгенерировалось 14,5 миллионов треков, или 14% от всей записанной музыки в мире (глянул, уже ~16 млн треков, то есть +1,5 млн треков за 2 месяца). А таких проектов в ближайшие годы будут тысячи. Можно парировать, что бигтехи могут быстро нарастить компьют, но 52% полупроводниковых микросхем производит TSMC на Тайване и 18% Samsung в Южной Корее. Строить свои заводы в США и обучать людей это дорого и долго, да и экономические условия во времена краха банков и массовых увольнений в корпорациях не соблаговолят этому. Так, что велика вероятность, что они не смогут наращивать компьют нужными темпами.

Из-за давления регуляторов и узкого места в мощностях бигтехам придётся разворачивать проекты постепенно на ограниченной территории и аудитории... вот только это идёт в разрез со скоростями опенсорса. Прошло уже больше 9 месяцев как были анонсированы Imagen от гугла и Make-a-Video от запрещёнки.... где бы эти проекты сейчас ни были всем уже без разницы, потому что есть Zeroscope 2 XL, GEN-2, Potat1, модели с ControlNet на борту, и тд. Этот рынок никого не ждёт — если дверь закрыта, народ ломанётся в те что открыты.

А дальше просто будут нейронки, которым скармливаешь скриншот приложения, описываешь как оно работает, а нейронка тебе генерит его код, и ты можешь также чатом его персонализировать под себя....

Большие языковые и генеративные модели уже помещаются локально на одну видюху, телефон, запускаются прямо в браузере через WebGPU, и их можно даже ускорить через распределёнку вроде Stable Horde. Так что ваши приватные данные, цифровой двойник, сгенерированный контент, и мета-проекты могут не покидать ваше устройство.

Дело за визуализацией меты исходя из такого контекста, а также экономической моделью. И движ в эту сторону есть...

Интернет по своей природе децентрализован и построен на свободном программном обеспечении. Вероятно таким же будет и метаверс.