OSINT
October 6, 2023

Обратный поиск по изображению в расследованиях

Обратный поиск по изображениям (Reversive Image Search) — это технология, которая позволяет искать информацию в интернете, используя изображение в качестве запроса вместо текста. Работает это так: вы загружаете изображение в поисковую систему, алгоритмы анализируют визуальные характеристики изображения и показывает вам похожие или идентичные варианты.

С помощью обратного поиска можно находить профили людей в социальных сетях, определять фейки, местоположение объектов, стоимость часов на запястьях политиков и много чего ещё.

Пример идентификации здания с помощью Yandex Image Search

Расследователи для этих целей используют Yandex, Google Image Search, Bing и TinEye, поэтому о них мы и расскажем.


Что общего у всех систем обратного визуального поиска?

Если коротко, то их объединяет технология машинного зрения и некоторые другие, относящиеся к анализу визуальной части файла, например технология CBIR.

CBIR (Content Based Image Retrieval), или извлечение изображений на основе содержимого, — это технология, которая позволяет искать и извлекать изображения из большой базы данных на основе визуального содержимого самого изображения, а не на основе текстовых меток или ключевых слов. В CBIR анализируются визуальные характеристики изображений, такие как цвета, текстуры, формы и другие визуальные атрибуты, чтобы найти и предложить пользователю наиболее похожие изображения в контексте запроса. CBIR широко используется не только для обратного поиска по изображениям, но и для медицинской диагностики и в правоохранительной сфере, например, CBIR используется и в системе «Безопасный город»

Как работает визуальный поиск Yandex

Большинство независимых расследователей по всему миру утверждают, что визуальный поиск от Yandex сделан на отлично. Здесь можно искать логотипы, здания, определять местность и находить людей по фотографии. Этот сервис можно отнести к региональным, потому что Яндекс традиционно используют в России, странах СНГ и в ближней Европе. Соответственно, визуальный поиск этой компании заточен на определение объектов из этих стран: возьмите фотографию любого провинциального ЖД-вокзала и мировые гиганты вроде Google или Bing покажут вам что-то смутно напоминающее ваше изображение, а Яндекс скажет вам и название станции и покажет, где именно она находится. Если же в качестве примера мы возьмём фотографию ЖД-вокзала из города Стонтон, штат Вирджиния, Яндекс тут ничем не поможет. Впрочем, как и Google или Bing.

Алгоритмы Яндекса по распознаванию лиц работают на удивление эффективно. Яндекс старается найти не просто изображения, похожие на то, что вы загрузили, но и другие фото того же человека, определённые по сходству черт лица, даже если они сделаны при другом освещении, на фоне других цветов или в разных позах. В отличие от него, Google и Bing могут просто показать вам фото, где человек одет в похожую одежду или имеет общие черты лица с загруженным изображением.

Плюсы:

  • Эффективен для расследований, связанных с Россией и СНГ
  • Продвинутый (по сравнению с конкурентами) лицевой поиск
  • Находит похожие изображения, даже если исходное изображение не индексировано поиском

Минусы:

  • Хуже чем Google определяет одежду и аксессуары
  • Слабые результаты, если фотография сделана в трудно узнаваемых местах на других континентах

Как работает визуальный поиск Google

Google Image Search имеет более глобальную структуру чем любой из конкурентов, лучше справляется с определением предметов (особенно с теми, которые можно заказать в интернете) и помогает в расшифровке текста на фотографиях зданий, благодаря технологии автоматического распознавания текста (OCR). Например, если у вас оказалась фотография со зданием, на котором висит вывеска «Tagescafé - Frühstück und Mittagessen», вы можете не забивать этот текст в переводчик вручную, Google сам подскажет*, что речь идёт про дневное кафе, в котором подают завтрак и обед.

Однако Google не так хорош в идентификации людей, если этот человек не знаменитость, и хуже справляется с поиском похожих сцен, отдавая предпочтение идентификации отдельных объектов. По состоянию на 2023 год, доля Google на глобальном рынке составляет около 83%, однако на локальном поисковом рынке лидирует именно Яндекс (63,6%), в то время как Google показывает более скромные показатели в 45%. Эти цифры указывают на уровень локализации сервисов. Другими словами, Google не так хорошо адаптирован к местным особенностям, как Yandex.

*Эта функция есть в Google Translator

Плюсы:

  • Эффективен для worldwide-расследований
  • Эффективен в распознавании объектов
  • Есть технология распознавания текста по изображению (OCR)

Минусы

  • Хуже чем Yandex справляется с поиском местных объектов
  • Слабые результаты, если изображение не индексировано поиском

Как работает визуальный поиск Bing

Bing в России не очень

Когда-то Bing был действительно хорош, у проекта Microsoft была киллер-фича — возможность выделить любой объект в кадре и сосредоточить поиск только на нём, но потом эта функция появилась повсеместно. Справедливости ради стоит сказать, что если бы мы базировались где-нибудь в Китае, Японии или США, Bing приносил бы нам больше пользы чем в России, но здесь этот визуальный поиск уступает и Яндекс и Google.

А как же TinEye?

Сервис определения изображения TinEye появился в 2008 году и был одним из первых, кто предоставлял обычным пользователям технологию обратного поиска изображений. Сейчас TinEye отстаёт даже от Bing по уровню возможностей, поэтому TinEye применяется в расследованиях ограниченно, когда речь идёт о таких кейсах, как поиск правообладателя изображения или поиск первого упоминания в сети.

Например, возьмём обложку Tyler, the Creator с альбома «Wolf»:

Обложка нарисована современным американским художником Марком Райденом (Mark Ryden)

Если загрузить это изображение в TinEye и выставить параметр «Sort by oldest» (сортировать по старым), то мы найдём, на каком ресурсе изображение впервые появилось в интернете.

Плюсы:

  • Эффективен для поиска оригинальных изображений
  • Помогает находить электронные базы с визуальными документами, например, электронные галереи.

Минусы

  • Всё остальное

Тестирование

Для теста мы возьмём несколько разноплановых изображений. Некоторые дополнительно подкорректируем, — отразим зеркально и добавим дополнительные элементы усложняющие распознавание.

Обратный поиск скульптуры

Yandex

Визуальный поиск от Яндекса не справился с задачей, но нашёл много других изображений, напоминающих это место.

Результат:

а) ❌

б) ❌

в) ❌

Google:

Google может сначала выделить объект, игнорируя поиск сцены

На первый взгляд Google тоже не справился с задачей, но это не так. Google просто сразу сосредоточился на отдельном объекте, на самой скульптуре, а не на всей сцене. Если выделить сцену, то результат будет лучше — на этот раз мы нашли место, это кладбище Хольстебро в Дании.

Корректное место выделено красным

Google также без проблем справился и с перевёрнутым изображением, а вот дополнительный элемент в виде фонаря поверх оригинального изображения уже смутил поисковую систему. Если кадрировать изображение с дополнительным элементом прямо в окне поиска, ситуация снова исправляется.

Обратите внимание на кадрирование

Результат:

а) ✅

б) ✅

в) ❌/✅

Bing

Визуальный поиск от Microsoft с задачей не справился.

Результат:

а) ❌

б) ❌

в) ❌

Определение места пейзажа

Yandex

Яндекс сразу определил, что это Зелёный мыс в Батуми и показал, на каких ресурсах публиковались другие изображения с этим же пейзажем, включая фотографии, сделанные с другого ракурса. Без проблем определилось и отзеркаленное изображение, а вот с дополнительным элементом возникли проблемы: Яндекс стал искать птицу и, надо сказать, он её нашёл, но задача была не в том, чтобы идентифицировать белоголовых орланов. Кадрирование исправило этот недочёт.

Если убрать из кадра птицу, то место снова будет найдено, даже по небольшому фрагменту исходного изображения

Результат:

а) ✅

б) ✅

в) ❌/✅

Google

Результат такой же как и у Яндекс, но есть нюанс: Google предлагает в первую очередь более официальный контент: отели, отзывы, обзоры на туристических площадках и так далее, а Яндекс больше сосредоточен на пользовательском контенте: личные блоги, фотографии, посты в соцсетях.

Результат:

а) ✅

б) ✅

в) ❌/✅

Bing

Удивительно, но в этом примере Bing справился с задачей. Правда результаты выдачи всё равно хуже чем у Яндекс и Google, — правильные ссылки не локализованы, остальные ведут на случайные пляжи.

Результат:

а) ✅

б) ✅

в) ❌/✅

Обратный поиск изображения, которое никуда ранее не загружалось

Yandex

Несмотря на сложные условия задачи, Яндекс с ней справился, хоть и не без проблем. Место на фотографии — не отель «Искра» и не парк-отель «Васильевский», однако на первой странице поиска были и правильные варианты, так что задача выполнена.

Результат:

а) ✅

б) ✅

в) ❌/✅

Google и Bing

Вообще не справились. Это не удивительно, так как изображение не загружалось ранее в интернет.

Результат:

а) ❌

б) ❌

в) ❌

Обратный поиск аксессуара

Для этой задачи мы нашли в интернете стоковую фотографию с часами на модели, чтобы проверить, насколько хорошо система сможет найти выбранный фрагмент изображения — часы.


Yandex/Bing

Визуальный поиск от Яндекс с задачей не справился вообще. Впрочем, как и Bing.

Bing даже не старался

Google

А вот Google уже справился с задачей. На изображении часы — Hamilton Jazzmaster Petite Seconde.


Советы

  1. Не пользуйтесь только одним инструментом обратного поиска, комбинируйте их для достижения цели. Там где не справился Google, может справиться Яндекс, и наоборот.
  2. Если исходное изображение не чёткое, вы можете поднять его детализацию с помощью ИИ или фотошопа.
  3. Если на исходном изображении есть лишний элемент, из-за которого вы не можете найти сцену, вы можете либо стереть этот элемент, либо пикселизировать его, чтобы поисковая система игнорировала мешающий объект.
  4. Поиск не сработает, если размер изображения меньше 200x200, так что увеличьте его вручную, чтобы обойти это ограничение.
  5. Если вам нужно найти ресурс, на котором исходное изображение было опубликовано впервые, воспользуйтесь сервисом TinEye.
  6. Если вы ищете информацию связанную с Россией или странами СНГ, Bing вам не поможет.