Обратный поиск по изображению в расследованиях
Обратный поиск по изображениям (Reversive Image Search) — это технология, которая позволяет искать информацию в интернете, используя изображение в качестве запроса вместо текста. Работает это так: вы загружаете изображение в поисковую систему, алгоритмы анализируют визуальные характеристики изображения и показывает вам похожие или идентичные варианты.
С помощью обратного поиска можно находить профили людей в социальных сетях, определять фейки, местоположение объектов, стоимость часов на запястьях политиков и много чего ещё.
Расследователи для этих целей используют Yandex, Google Image Search, Bing и TinEye, поэтому о них мы и расскажем.
Что общего у всех систем обратного визуального поиска?
Если коротко, то их объединяет технология машинного зрения и некоторые другие, относящиеся к анализу визуальной части файла, например технология CBIR.
CBIR (Content Based Image Retrieval), или извлечение изображений на основе содержимого, — это технология, которая позволяет искать и извлекать изображения из большой базы данных на основе визуального содержимого самого изображения, а не на основе текстовых меток или ключевых слов. В CBIR анализируются визуальные характеристики изображений, такие как цвета, текстуры, формы и другие визуальные атрибуты, чтобы найти и предложить пользователю наиболее похожие изображения в контексте запроса. CBIR широко используется не только для обратного поиска по изображениям, но и для медицинской диагностики и в правоохранительной сфере, например, CBIR используется и в системе «Безопасный город»
Как работает визуальный поиск Yandex
Большинство независимых расследователей по всему миру утверждают, что визуальный поиск от Yandex сделан на отлично. Здесь можно искать логотипы, здания, определять местность и находить людей по фотографии. Этот сервис можно отнести к региональным, потому что Яндекс традиционно используют в России, странах СНГ и в ближней Европе. Соответственно, визуальный поиск этой компании заточен на определение объектов из этих стран: возьмите фотографию любого провинциального ЖД-вокзала и мировые гиганты вроде Google или Bing покажут вам что-то смутно напоминающее ваше изображение, а Яндекс скажет вам и название станции и покажет, где именно она находится. Если же в качестве примера мы возьмём фотографию ЖД-вокзала из города Стонтон, штат Вирджиния, Яндекс тут ничем не поможет. Впрочем, как и Google или Bing.
Алгоритмы Яндекса по распознаванию лиц работают на удивление эффективно. Яндекс старается найти не просто изображения, похожие на то, что вы загрузили, но и другие фото того же человека, определённые по сходству черт лица, даже если они сделаны при другом освещении, на фоне других цветов или в разных позах. В отличие от него, Google и Bing могут просто показать вам фото, где человек одет в похожую одежду или имеет общие черты лица с загруженным изображением.
- Эффективен для расследований, связанных с Россией и СНГ
- Продвинутый (по сравнению с конкурентами) лицевой поиск
- Находит похожие изображения, даже если исходное изображение не индексировано поиском
- Хуже чем Google определяет одежду и аксессуары
- Слабые результаты, если фотография сделана в трудно узнаваемых местах на других континентах
Как работает визуальный поиск Google
Google Image Search имеет более глобальную структуру чем любой из конкурентов, лучше справляется с определением предметов (особенно с теми, которые можно заказать в интернете) и помогает в расшифровке текста на фотографиях зданий, благодаря технологии автоматического распознавания текста (OCR). Например, если у вас оказалась фотография со зданием, на котором висит вывеска «Tagescafé - Frühstück und Mittagessen», вы можете не забивать этот текст в переводчик вручную, Google сам подскажет*, что речь идёт про дневное кафе, в котором подают завтрак и обед.
Однако Google не так хорош в идентификации людей, если этот человек не знаменитость, и хуже справляется с поиском похожих сцен, отдавая предпочтение идентификации отдельных объектов. По состоянию на 2023 год, доля Google на глобальном рынке составляет около 83%, однако на локальном поисковом рынке лидирует именно Яндекс (63,6%), в то время как Google показывает более скромные показатели в 45%. Эти цифры указывают на уровень локализации сервисов. Другими словами, Google не так хорошо адаптирован к местным особенностям, как Yandex.
*Эта функция есть в Google Translator
- Эффективен для worldwide-расследований
- Эффективен в распознавании объектов
- Есть технология распознавания текста по изображению (OCR)
- Хуже чем Yandex справляется с поиском местных объектов
- Слабые результаты, если изображение не индексировано поиском
Как работает визуальный поиск Bing
Когда-то Bing был действительно хорош, у проекта Microsoft была киллер-фича — возможность выделить любой объект в кадре и сосредоточить поиск только на нём, но потом эта функция появилась повсеместно. Справедливости ради стоит сказать, что если бы мы базировались где-нибудь в Китае, Японии или США, Bing приносил бы нам больше пользы чем в России, но здесь этот визуальный поиск уступает и Яндекс и Google.
А как же TinEye?
Сервис определения изображения TinEye появился в 2008 году и был одним из первых, кто предоставлял обычным пользователям технологию обратного поиска изображений. Сейчас TinEye отстаёт даже от Bing по уровню возможностей, поэтому TinEye применяется в расследованиях ограниченно, когда речь идёт о таких кейсах, как поиск правообладателя изображения или поиск первого упоминания в сети.
Например, возьмём обложку Tyler, the Creator с альбома «Wolf»:
Если загрузить это изображение в TinEye и выставить параметр «Sort by oldest» (сортировать по старым), то мы найдём, на каком ресурсе изображение впервые появилось в интернете.
- Эффективен для поиска оригинальных изображений
- Помогает находить электронные базы с визуальными документами, например, электронные галереи.
Тестирование
Для теста мы возьмём несколько разноплановых изображений. Некоторые дополнительно подкорректируем, — отразим зеркально и добавим дополнительные элементы усложняющие распознавание.
Обратный поиск скульптуры
Визуальный поиск от Яндекса не справился с задачей, но нашёл много других изображений, напоминающих это место.
На первый взгляд Google тоже не справился с задачей, но это не так. Google просто сразу сосредоточился на отдельном объекте, на самой скульптуре, а не на всей сцене. Если выделить сцену, то результат будет лучше — на этот раз мы нашли место, это кладбище Хольстебро в Дании.
Google также без проблем справился и с перевёрнутым изображением, а вот дополнительный элемент в виде фонаря поверх оригинального изображения уже смутил поисковую систему. Если кадрировать изображение с дополнительным элементом прямо в окне поиска, ситуация снова исправляется.
Визуальный поиск от Microsoft с задачей не справился.
Определение места пейзажа
Яндекс сразу определил, что это Зелёный мыс в Батуми и показал, на каких ресурсах публиковались другие изображения с этим же пейзажем, включая фотографии, сделанные с другого ракурса. Без проблем определилось и отзеркаленное изображение, а вот с дополнительным элементом возникли проблемы: Яндекс стал искать птицу и, надо сказать, он её нашёл, но задача была не в том, чтобы идентифицировать белоголовых орланов. Кадрирование исправило этот недочёт.
Результат такой же как и у Яндекс, но есть нюанс: Google предлагает в первую очередь более официальный контент: отели, отзывы, обзоры на туристических площадках и так далее, а Яндекс больше сосредоточен на пользовательском контенте: личные блоги, фотографии, посты в соцсетях.
Удивительно, но в этом примере Bing справился с задачей. Правда результаты выдачи всё равно хуже чем у Яндекс и Google, — правильные ссылки не локализованы, остальные ведут на случайные пляжи.
Обратный поиск изображения, которое никуда ранее не загружалось
Несмотря на сложные условия задачи, Яндекс с ней справился, хоть и не без проблем. Место на фотографии — не отель «Искра» и не парк-отель «Васильевский», однако на первой странице поиска были и правильные варианты, так что задача выполнена.
Вообще не справились. Это не удивительно, так как изображение не загружалось ранее в интернет.
Обратный поиск аксессуара
Для этой задачи мы нашли в интернете стоковую фотографию с часами на модели, чтобы проверить, насколько хорошо система сможет найти выбранный фрагмент изображения — часы.
Визуальный поиск от Яндекс с задачей не справился вообще. Впрочем, как и Bing.
А вот Google уже справился с задачей. На изображении часы — Hamilton Jazzmaster Petite Seconde.
Советы
- Не пользуйтесь только одним инструментом обратного поиска, комбинируйте их для достижения цели. Там где не справился Google, может справиться Яндекс, и наоборот.
- Если исходное изображение не чёткое, вы можете поднять его детализацию с помощью ИИ или фотошопа.
- Если на исходном изображении есть лишний элемент, из-за которого вы не можете найти сцену, вы можете либо стереть этот элемент, либо пикселизировать его, чтобы поисковая система игнорировала мешающий объект.
- Поиск не сработает, если размер изображения меньше 200x200, так что увеличьте его вручную, чтобы обойти это ограничение.
- Если вам нужно найти ресурс, на котором исходное изображение было опубликовано впервые, воспользуйтесь сервисом TinEye.
- Если вы ищете информацию связанную с Россией или странами СНГ, Bing вам не поможет.