January 25, 2020

Обратный поиск изображений

Международное агентство Bellingcat опубликовало несколько советов по идентификации людей и географических локаций на фотографиях с помощью функции «Поиск изображений» в поисковых системах.

Оказалось, что в этом отношений нет равных российской поисковой системе «Яндекс. Картинки». По одному образцу движок находит фотографии этого лица в совершенно другой обстановке и освещении, что говорит о продвинутом распознавании лиц. У Google и других компаний нет ничего подобного, признают специалисты. Таким образом, «Яндекс» можно назвать безусловным лидером по обратному поиску изображений.

В опубликованном руководстве разъясняются базовые методы онлайн-расследований, с акцентом на идентификацию лиц и адресов.

Поиск похожих фотографий по образцу лица в «Яндексе», Google и Bing.

В первом примере «Яндекс» нашёл многочисленные фотографии искомого лица из разных источников (среди лучших результатов только в двух случаях представлены посторонние люди), причём результаты отличаются от исходного изображения, но показывают одного и того же человека. Google вообще ничего не нашёл, а в результатах поиска Bing оказался только один результат с тем же человеком (пятое изображение, вторая строка).

Специалисты Bellingcat постоянно используют «Яндекс» в расследованиях и не выражают особенной паранойи по поводу его российского происхождения. Это первый инструмент, к которому они прибегают в работе. На втором месте — Bing, где в поиске есть несколько уникальных функций, как выделение конкретной области изображения для поиска.

Google подходит для самого простого обратного поиска. Например, идентификации известных людей на фотографиях, поиска источника изображений, определения автора произведения искусства и так далее. Однако если вы хотите найти похожие изображения (не точные копии), то будете разочарованы.

Например, при поиске человека, который пытался напасть на журналиста BBC на митинге Трампа, Google находит источник обрезанного изображения, но не может найти никаких дополнительных изображений его или кого-то хоть немного похожего.

Хотя Google не очень помог в поиске других экземпляров лица этого человека или похожих на него людей, он всё же нашел оригинальную, не обрезанную версию фотографии, с которой был сделан скриншот.

Тестирование

Для тестирования различных методов и механизмов поиска обратных изображений специалисты Bellingcat взяли несколько изображений, представляющих различные типы исследований, включая как оригинальные фотографии (ранее не загруженные в интернет), так и переработанные. Они отмечают, что теперь поиск может работать не так, как во время тестирования, поскольку после публикации статьи поисковые системы уже проиндексировали эти фотографии и интегрировали их в свои результаты.


Тестовые фотографии включают в себя ряд различных географических регионов с исходными материалами в Западной Европе, Восточной Европе, Южной Америке, Юго-Восточной Азии и Соединенных Штатах. На каждой из этих фотографий выделены отдельные объекты в изображении, чтобы проверить сильные и слабые стороны каждой поисковой системы.

Одна из тестовых фотографий: дворец Олисова в Нижнем Новгороде, Россия (оригинал, ранее не загруженный в сеть):

Отдельно: белый внедорожник в Нижнем Новгороде:

Отдельно: трейлер в Нижнем Новгороде:

На здании в Нижнем Новгороде, как и на других фотографиях, наилучшие результаты показал поиск по изображениям «Яндекса». Журналисты Bellingcat говорят, что его результаты настолько впечатляющие, что иногда кажутся какой-то чёрной магией, хотя и не без ошибок.

В данном случае «Яндекса» без труда опознал это здание. Он нашёл фотографии, сделанными под тем же углом, а также нашел с других ракурсов, включая 90° против часовой стрелки (см. первые два изображения в третьем ряду) с точки зрения исходного изображения.

«Яндекс» также без труда опознал белый внедорожник на переднем плане фотографии как Nissan Juke.

Наконец, в самом сложном изолированном поиске этого изображения «Яндекс» не смог идентифицировать неприметный серый трейлер перед зданием. Некоторые результаты выглядят так же, как на исходном изображении, но ни один из них не соответствует действительности.

По сравнению с этими результатами выдача Google и Bing выглядит просто смешно, хотя Google корректно классифицировал трейлер как travel trailer.

Если поиск изображения не даёт результата, в некоторых случаях помогают простые трюки:

  • зеркальное отображение фотографии;
  • применение цветовых фильтров;
  • удаление из кадра ненужных элементов, которые могут затруднять поиск.

Вспомогательные инструменты

Кроме стандартного поиска изображений, Bellingcat рекомендует несколько вспомогательных инструментов при проведении онлайновых расследований.


Во-первых, есть специализированные инструменты для обработки определённых типов фотографий. Например, приложение Merlin Bird ID от Cornell Lab чрезвычайно точно определяет тип птиц на фотографии или предлагает возможные варианты. Или FlagID, где можно вручную ввести информацию о флаге и выяснить его происхождение.

Если на фотографии встретились символы неизвестного языка, то можно вручную повторить их с помощью инструмента рукописного ввода Google Translate.

Пикселизация и размытие

Как подробно описано в этом треде Twitter, можно пикселизировать или размыть элементы фотографии, чтобы обмануть поисковую систему — и сосредоточиться только на фоне. На этой фотографии пресс-секретаря Руди Джулиани точное изображение не даёт возможности понять, где сделан снимок.


Но если размыть/пикселизировать женщину в середине изображения, то «Яндекс» способен проанализировать другие элементы изображения: стулья, картины, люстры, ковры, настенные узоры и так далее.

После этого «Яндекс» точно знает, где было сделано изображение: это популярный отель в Вене.

Исследователи Bellingcat делают вывод, что движки обратного поиска изображений значительно продвинулись в последнее десятилетие, и прогресс продолжается быстрыми темпами.

Прогрессу способствует большой рост поисковой базы. Крупным интернет-компаниям удалось убедить пользователей разместить на своём хостинге архивы личных фотографий, на которых и обучается Искусственный Интеллект:

Именно с этой целью Google Фото и Яндекс.Диск предлагают бесплатное хранилище фотографий в неограниченном количестве. Это бесконечное количество материала для машинного обучения.

Они прогнозируют, что в скором времени на базе Facebook или Instagram начнёт работать общедоступная программа распознавания лиц, что нанесёт серьёзный удар по конфиденциальности в интернете, но также увеличит эффективность цифровых расследований.