Разработан новый алгоритм, ориентированный на поиск скрытых связей между музейными картинками
Команда из Массачусетского технологического института (MIT) помогла создать систему поиска совпадений среди изображений разных художников и разных культур.
Искусство часто дает нам возможность обратиться к прошлому, закрепив его мгновение; прекрасный проводник, позволяющий вырваться из настоящего.
При наличии огромного количества картин связи между произведениями искусства из разных периодов времени и пространства нередко остаются незамеченными. Даже самые матерые искусствоведы не в состоянии охватить миллионы картин за тысячи лет и найти неожиданные параллели в темах, мотивах и визуальных стилях.
Чтобы упростить данный процесс, группа исследователей из Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) и Microsoft создали алгоритм, стремящийся к поиску скрытых связей между картинами в Метрополитен-музее и Амстердамском Государственном музее.
После посещения специальной выставки “Рембрандт и Веласкес” в Государственном музее, ученые начали работу над новой системой MosAIc, которая ищет пары работ из разных культур, от разных художников и средств массовой информации, основываясь на принципе глубоких нейронных сетей. Исследователи вдохновились невероятной парой схожих картин: Франсиско де Зурбаран “Мученичество святого Серапиона” и Ян Асселин “Угрожаемый Лебедь”. Две работы, изображающие сцены глубокого альтруизма, с жутким визуальным сходством.
“Эти два художника не переписывались и не встречались друг с другом в течение всей жизни, но их картины намекали на богатую, скрытую структуру, которая лежит в основе обоих их работ”, - говорит аспирант CSAIL Марк Гамильтон, ведущий автор статьи о MosAIc.
Для определения пар близких картин, команда использовала недавно разработанный алгоритм поиска изображений. Чтобы понять, что он из себя представляет, можно привести следующий пример: в ответ на запрос “Какой музыкальный инструмент ближе всего к этой картине бело-синего платья?”, алгоритм выдаст изображение бело-синей фарфоровой скрипки. Две такие работы не только схожи по рисунку и форме, но и ссылаются на давний культурный обмен между голландцами и китайцами.
“Подобные системы поиска дают пользователям возможность искать изображения, семантические схожие с введенным, служа базой для обратных поисковых систем и систем рекомендаций продуктов”, - говорит Гамильтон. “Ограничение системы определенным подмножеством изображений может расширить наше понимание окружающего мира. Мы пытаемся выйти на новый уровень взаимодействия с творческими артефактами.”
Как это работает?
Для многих искусство и наука непримиримы: одно основано на логике, рассуждениях и аксиомах, а другая мотивирована эмоциями, эстетикой и красотой. Однако не так давно ИИ и искусство начали работать вместе, за 10 лет превратившись во что-то серьезное.
Большая часть разработки, например, ранее была сосредоточена на создании новой ветви искусства с использованием ИИ. Проект GauGAN, разработанный исследователями из MIT, NVIDIA и Калифорнийского университета в Беркли; предыдущий проект GenStudio Гамильтона и других; даже произведение искусства, целиком написанное ИИ, было продано на аукционе Sotheby's за 51 тысячу долларов.
MosAIc, однако, не стремится создавать новое искусство, но помогает исследовать существующее. Один из подобных инструментов, Google, X Degrees of Separation, определяет ветвь искусства, объединяющие два произведения, но MosAIc отличается тем, что требует всего одно изображение. Вместо того, чтобы искать направления, он обнаруживает связи в любых средах, выбранных пользователем, например, выдавая общую художественную форму “Anthropoides paradisea” и “Сет, убивающий змею, храм Амона в Хибисе”.
Гамильтон отмечает, что разработка алгоритма была сложным делом, потому что им было недостаточно соединять изображения по форме и цвету, но также по стилю и времени. Другими словами, они хотели бы, чтобы собаки были близки к другим собакам, люди были близки к другим людям. При обучении нейронных сетей, они обращались в коллекциях открытого доступа Met и Rijksmuseum.
Для определения схожестей между культурами, команда применила новую структуру данных, называемую “условное KNN-дерево”, группирующее похожие изображения в абстрактной древовидной структуре. Для наилучшего совпадения, алгоритм начинает работу от ствола дерева, идет по наиболее перспективной ветке, пока не будет уверен в своем ответе. В течение каждой итерации алгоритм улучшается, по сравнению со своими предшественниками, позволяя дереву быстро обучить себя определенной культуре, художнику или коллекции, выдавая ответы на последующие запросы.
В наши дни проблема с deepfake стоит достаточно остро, и Гамильтон с командой обнаружили потениальное ее решение, основываясь на своем открытии. Применим структуру данных для обнаружения областей, где вероятностные модели (к примеру, GAN), часто используемые в таких ситуациях, ломаются, они показали, что их программа более успешно справляется с такими слепыми пятнами.
Тестовая MosAIc
Команда оценила скорость работы MosAIc и то, насколько она соответствует человеческой интуиции касательно визуальных аналогий.
При тестировании скоростей они хотели убедиться, что их структура данных работает лучше, по сравнению с обычным поиском по коллекциям.
Чтобы понять, насколько хорошо система согласуется с человеческой интуицией, они создали и выпустили два новых набора данных для оценки систем условного поиска изображений. Один набор данных требовал от алгоритмов поиска изображений с одинаковым содержанием даже после того, как они были стилизованы с помощью метода передачи нейронного стиля. Второй набор данных бросал вызов алгоритмам восстановления букв английского алфавита, написанных разными шрифтами. Чуть менее чем за две трети времени MosAIc справилась со своей задачей.
“Двигаясь вперед, мы надеемся, что эта работа вдохновит других задуматься о том, как инструменты поиска информации могут помочь другим областям, например, в искусстве, гуманитарных науках, медицине”, - говорит Гамильтон. “Эти области богаты информацией, которая никогда не обрабатывалась современными методами обработки, и могут быть источником большого вдохновения для информационных специалистов и математиков. Работа может быть расширена с точки зрения новых наборов данных, новых типов запросов и новых способов осознания связей”.
Источник: https://news.mit.edu/2020/algorithm-finds-hidden-connections-between-paintings-met-museum-0729