February 4

Кейс. Особенность "охоты" в азиатском сегменте

Всем привет!

Сейчас я не веду частную практику (только исключительные случаи), но однажды ко мне обратился человек Б. со специфическим запросом, с которым мне было очень интересно разобраться

Это короткий кейс, но мне все равно захотелось о нем рассказать.

Как все начиналось

Б делает достаточно специфические узконаправленные приложения (не в плохом смысле :) ). В какой-то момент он узнал, что какой-то человек из азиатского сегмента начал продавать его приложения, дополнительно обещая бонусные функции. Б не было дела до юридических разборок, его лишь разъедало любопытство "кому и зачем это понадобилось? какие бонусные функции обещает?"

Поехали?

Контент всплывал на разных азиатских форумах вроде 52pojie или Kanxue. На одном китайском ресурсе мы нашли несколько таких объявлений: один и тот же ник, превью, описание, телеграм как точка для связи, выцепили еще платежные данные. Телеграм был чистый и недавно созданный, крипто адреса никакой полезной информации не дали.

Что ж, работаем с ником? Желательно найти дополнительные аккаунты, возможно, какие-то отзывы об этом продавце, его обсуждения, где будет новая информация.

Проблема с ником

В обычной ситуации мы бы скопировали ник и стали искать его через дорки и разные ресурсы для поиска по нику, но не сегодня. Мы, конечно, попробовали, но это не дало особых результатов. Как оказалось, такой алгоритм далеко не всегда будет работать в азиатском интернете. Почему?

  • никнейм редко используется как точная строка
  • почти никогда не копируется дословно
  • существует скорее как описание или звук, чем как устойчивый уникальный идентификатор
  • один и тот же набор иероглифов может иметь разные значения в зависимости от контекста, например, быть частью выражения, а не идентификатором

Никнейм в таких обсуждениях - это не уникальное имя, а "объект пересказа", поэтому когда пользователь с латинским ником появляется на азиатском (китайском, например) форуме, происходит следующее:

  • кто-то переписывает ник иероглифами по звучанию
  • кто-то сокращает его
  • кто-то описывает его (“тот продавец с ником X”)
  • кто-то использует гибрид латиницы и локальных символов

В результате ник начинает существовать в нескольких формах одновременно, и ни одна из них не обязана совпадать с оригинальной строкой. То же самое происходит, если исходный ник не латинский, а иероглифический.

Поэтому задача была не «найти точно такой же ник», а восстановить, как его могли пересказывать.

Более того, желательно рассмотреть адаптацию для нескольких языков, включая русский и английский.

Хоть основные объявления и были размещены в китайском сегменте, но:

  • контент нишевый
  • аудитория международная
  • такие темы могут активно репостить

Поэтому один и тот же продавец, выложив объявление в китайском сегменте интернета, может обсуждаться на корейском форуме, попасть в японскую или американскую подборку инструментов и тд.

Каждый раз ник может адаптироваться в речи локальной аудитории, поэтому ник разбирался как:

  • фонетическая конструкция
  • возможные слоги
  • допустимые локальные формы записи

Сейчас покажу пример.

Допустим, у нас есть ник NovaX.

Как выглядит прямая фонетическая транскрипция в китайские иероглифы?

  • - (nuò) примерно как "No"
  • - (wǎ) примерно как "Va"
  • 艾克斯 - (àikèsī) подходит под "X"

Итого возможная транскрипция: 诺瓦艾克斯
Это не перевод значения - это передача звучания

В реальности же в разговорах и обсуждениях никто не пишет полный фонетический ник, пишут сокращенный вариант, потому что длинные транскрипции неудобны. Например:

  • 诺瓦 (nuò wǎ) - короткая форма
  • 艾克斯 как отдельное слово для “X”

Эти же части могут комбинироваться, упрощаться или соединяться вместе, например: 诺艾斯 или 瓦艾 и т.п.

То есть разные люди могут написать разные варианты, которые звучат похоже, но дословно не совпадают

Иногда может быть еще хуже, и появляются семантические вариации. Это когда при транскрипции выбор иероглифов может не только передавать звук, но и привносить дополнительное значение - в зависимости от выбранных иероглифов. Я не до конца разобралась, как это работает, но вроде есть примеры.

Один из возможных вариантов - это 诺瓦克 (nuò wǎ kè), который показывает звучание близко к оригиналу:

  • - nuò (означает “обещание, согласие”)
  • - wǎ (означает “черепица, керамическая плитка”)
  • - kè (часто используется при заимствованиях)

Или 牛娃想 - niú wá xiǎng, бык + ребенок + думать\хотеть.

Востоковеды и знающие азаиатские языки, поправьте меня, пожалуйста, если я где-то ошибаюсь.

Продолжение

Упоминания этого продавца мы действительно нашли на паре американских форумах, но никаких новых данных это не принесло. Более интересная информация оказалась на одном корейском форуме, где в отзывах один пользователь писал про мошенничество (удивительно, что только один), но писал достаточно давно.

Изначально мы собирали всевозможные вариации никнейма, чтобы потом отдельно проверять каждый. На этом форуме мы встретили не очень обычное написание имени, которое решили проверить сразу. Так как отзыв написан давно, может, это будет как-то связано со старыми аккаунтами продавца, по которым мы сможем идентифицировать личность?

Так и вышло. Этот никнейм был связан с другими аккаунтами на разных айтишных форумах (но другой тематики и по совершенно другим направлениям), и на одном таком была указана ссылка на фейсбук для связи. Фейсбук был на реальное имя (мы потом с ним списались по приколу), с фотографией, но без особых подробностей.

Сразу напомнило ситуацию, когда удалось идентифицировать одного "анонима" из кибербезопасной тусовки: в его аккаунте была ссылка на его сайт. Сайт был пустой, но когда-то давно его успел проиндексировать веб архив, а в старой версии сайта была ссылка на вк группу, где был только один администратор. Страница тоже была пустая, но vkhistory нам в помощь - на странице ранее был указан номер телефона. Я сверила данные с его сообщениями из разных тг-чатов - все совпало.