Airdrop-Sybil-Identification by TrustaLabs
Перевод статьи с https://github.com/TrustaLabs/Airdrop-Sybil-Identification/
Компания Trusta Labs разработала продукт TrustScan https://trustalabs.ai/trustscan для выявления ценных пользователей и подавления сибилов. Тем, кто заинтересовался нашим методом идентификации сибилов, рекомендуем прочитать нашу статью в Medium Post.
В этом репозитории мы будем держать вас в курсе нашей работы по противодействию сибиллам. В нем мы рассказываем не только о нашей системе искусственного интеллекта и машинного обучения для надежной идентификации Sybil в воздушных капчах, но и о некоторых адресных метках, кодах ввода данных и кодах анализа данных.
TL;DR: Атаки Sybil подрывают целостность ретроспективных airdrops в Web3. Алчные участники создают фальшивые учетные записи, чтобы нечестным путем заработать больше токенов с аирдропа. В статье рассматриваются различные подходы к защите от Sybil, такие как доказательство личности и отчетность сообщества, и подчеркиваются их недостатки. Затем в ней представлена система Trusta на основе ИИ и машинного обучения, позволяющая систематически анализировать данные о цепочке и выявлять подозрительные кластеры Sybil. Двухэтапный подход сначала использует алгоритмы графопостроения для обнаружения скоординированных сообществ, а затем уточняет результаты с помощью анализа поведения пользователей, чтобы снизить количество ложных срабатываний. На примерах показано, как Trusta выявляла реальные Sybil-кластеры в цепочке. Статья пропагандирует AI-ML как надежное решение для защиты от сибилов, сохраняющее конфиденциальность пользователей и возможность их беспрепятственного участия.
Введение
Атаки "сибиллов" подрывают целостность ретроспективных аирдропов
С тех пор как в 2020 году компания Uniswap начала использовать аирдропы для вознаграждения первых пользователей, они стали очень популярны в Web3. Под аирдропами понимается рассылка токенов на кошельки текущих или прошлых пользователей с целью повышения осведомленности, формирования собственности или ретроактивного вознаграждения первых последователей. Однако первоначальный замысел аирдропов может быть подорван атаками Sybil. Атаки Sybil происходят, когда недобросовестные участники создают фальшивые учетные записи и манипулируют действиями, чтобы нечестным путем заработать больше токенов. Поэтому выявление Sybil-аккаунтов, подделанных производителями аирдропов и злоумышленниками, стало критически важной задачей.
Доказательство личности и алгоритмы машинного обучения, основанные на искусственном интеллекте
Методы подтверждения личности, такие как биометрическое сканирование (например, сканирование радужной оболочки глаза в World Coin Project) или верификация в социальных сетях, проверяют гуманитарные науки, требуя подтверждения личности. Однако беспрепятственное и псевдонимное участие является основной ценностью Web3. Хотя подтверждение личности предотвращает создание "сибилов", оно также создает дополнительные трудности для пользователей и ставит под угрозу конфиденциальность. Необходимы решения, которые позволят остановить аирдроп-фермерство без ущерба для конфиденциальности и независимости.
Деятельность в цепочке Onchain представляет собой уникальный след пользователя, обеспечивая огромные массивы данных, в которых ученые, занимающиеся изучением данных, могут получить глубокие выводы. Trusta использует большие данные и опыт в области ИИ и машинного обучения для решения проблемы Sybil. При сравнении этих двух подходов идентификация сибилов с помощью машинного обучения (AI-ML) имеет преимущества перед доказательством личности:
1.AI-ML сохраняет конфиденциальность, поскольку пользователи не предоставляют свою биоинформацию и свои личности в Web2. Proof-of-personhood ставит под угрозу анонимность, требуя подтверждения личности.
2.AI-ML всесторонне анализирует массивные данные onchain для снижения уязвимости. Доказательство личности уязвимо, поскольку подтвержденные личности могут быть использованы.
3.AI-ML по своей сути не имеет прав доступа, поскольку любой человек может анализировать одни и те же публичные данные onchain.
4.Суждения сибилов могут быть публично дважды проверены благодаря прозрачности анализа.
Паспорт Gitcoin включает в себя оба метода. В основном он использует доказательство личности, но перед GG18 добавил оценку Trusta AI-ML TrustScan, объединив их преимущества для надежной защиты от сибилов.
Проект Airdrops и подходы к обеспечению устойчивости к Sybil
Последние крупные десанты выявили пробелы в антисибильной экспертизе. При проведении airdrop компания Aptos не соблюдала правила борьбы с сибилом. Охотники за токенами $APT заявили о наличии большого количества токенов, накачали цену после выхода на биржу, а затем массово сбросили токены. Исследователи обнаружили, что на сибильные адреса приходится 40% токенов, поступивших на биржи.
Некоторые проекты, такие как HOP и Optimism, призывали сообщество сообщать о сибилах с соответствующих адресов. Это перекладывало ответственность за противодействие сибиллам на сообщество. Несмотря на благие намерения, эта программа вызвала споры. Сообщаемые Sybil-аккаунты даже угрожали отравить другие кошельки, что могло нарушить все усилия сообщества по борьбе с Sybil.
С 2023 года противодействие сибиллам с помощью AI-ML стало более популярным. Zigzag использует анализ данных для выявления схожих последовательностей поведения. Arbitrum основывает выделение средств на активности на цепочке и использует алгоритмы обнаружения сообществ, такие как Louvain, для выявления кластеров сибилов.
Система защиты от сибилов AI-ML компании Trusta
Сибилянты автоматизируют взаимодействие между своими учетными записями с помощью ботов и скриптов. Это приводит к тому, что их учетные записи объединяются в вредоносные сообщества. Двухэтапная система AI-ML компании Trusta выявляет сообщества Sybil с помощью алгоритмов кластеризации:
- На первом этапе анализируются графы передачи активов (ATG) с помощью таких алгоритмов обнаружения сообществ, как Louvain и K-Core, для выявления плотно связанных и подозрительных Sybil-групп.
- На этапе 2 для каждого адреса вычисляются профили пользователей и их деятельность. K-means уточняет кластеры, отсеивая несхожие адреса, чтобы уменьшить количество ложных срабатываний, полученных на первом этапе.
Таким образом, Trusta сначала использует алгоритмы графового анализа для выявления скоординированных сообществ Sybil. Затем дополнительный анализ пользователей отфильтровывает выбросы для повышения точности, сочетая взаимосвязь и поведенческие модели для надежного обнаружения Sybil.
Этап I: Обнаружение сообщества на ATG
Trusta анализирует графы передачи активов (ATG) между счетами EOA. Адреса субъектов, таких как мост, биржи, смарт-контракты, удаляются, чтобы сосредоточиться на отношениях между пользователями. Компания Trusta разработала собственную аналитику для обнаружения и удаления из графов адресов узлов. Генерируются два ATG:
1.Общий граф передачи, в котором есть ребра для любой передачи токенов между адресами.
2.Граф предоставления газа, где ребра показывают первое предоставление газа по адресу. Первая передача газа активизирует новые EOA, формируя разреженную структуру графа, идеальную для анализа. Она также представляет собой сильную взаимосвязь, поскольку новые счета зависят от поставщика газа. Разреженность и важность газовой сети делает ее ценной для защиты от Sybil. Сложные алгоритмы могут добывать данные сети, а связи с поставщиками газа выделяют значимые отношения активации счетов.
Trusta анализирует графы передачи активов для обнаружения кластеров Sybil путем:
1.Кластеры создаются путем разбиения графов на связанные компоненты, например P1+P2. Затем алгоритмы обнаружения сообществ разбивают большие компоненты на плотно связанные подсообщества, такие как P1 и P2 с небольшим количеством ребер, чтобы оптимизировать модульность.
2.Trusta идентифицирует кластеры Sybil на основе известных моделей атак, представленных на диаграмме
- Звездообразные расходящиеся атаки: Адреса, финансируемые одним и тем же источником
- Атаки со схождением в виде звезды: Адреса, направляющие средства одной и той же цели
- Атаки с древовидной структурой: Средства, распределенные по древовидной топологии
- Атаки типа "цепочка": Последовательная передача средств от одного адреса к другому по цепочечной топологии. На первом этапе были получены предварительные кластеры Sybil, основанные исключительно на отношениях передачи активов. На втором этапе Trusta уточняет результаты, анализируя сходство поведения счетов.
Этап II: Уточнение K-средних на основе сходства поведения
Журналы транзакций выявляют шаблоны адресной активности. Сибилы могут проявлять сходство, например, взаимодействовать с одними и теми же контрактами/методами, с сопоставимыми сроками и суммами. Trusta проверяет кластеры фазы 1, анализируя поведение в цепи по двум типам переменных:
Транзакционные переменные: Эти переменные получены непосредственно из действий на цепочке и включают такую информацию, как даты первой и последней транзакции, а также протоколы или смарт-контракты, с которыми осуществлялось взаимодействие.
Профильные переменные: Эти переменные представляют собой агрегированную статистику поведения, такую как количество, частота и объем взаимодействий.
Для уточнения предварительного кластера сибилянтов с использованием многомерных представлений поведения адресов в Trusta применяется процедура, подобная K-средним. Шаги этой процедуры повторяются до сходимости, как показано на рисунке:
Шаг 1: Вычисление центроида кластеров:
1.Для непрерывных переменных вычислить среднее значение всех адресов в каждом кластере.
2.Для категориальных переменных определить модальность всех адресов в каждом кластере.
Шаг 2: Уточнение кластера путем исключения адресов, удаленных от центроида на заданное пороговое значение:
1.Из кластера исключаются адреса, расположенные на расстоянии от центроида, превышающем заданный порог.
2.На основе уточненного набора адресов производится обновление или уточнение состава кластера.
Эти два шага выполняются итеративно до тех пор, пока не будет достигнута сходимость, в результате чего будут получены уточненные кластеры Sybils.
Примеры
В рамках двухфазной схемы мы выявили несколько примеров кластеров Sybil на Ethereum. Эти кластеры не только визуализируются с помощью ATG, но и обосновываются на основе поведенческих сходств между адресами в каждом кластере. С тремя кластерами можно ознакомиться по ссылке.
График передачи активов StarLike
В кластере 1 имеется 170 адресов, которые совершили 2 операции с Ethereum - пополнение счета и покупку. Эти две операции произошли 5 декабря 2021 года и 26 февраля 2023 года. Все адреса впервые получили финансирование с адреса Binance.
Цепной график передачи активов
Кластер 2 состоит из 24 адресов, которые завершили последовательность аналогичных взаимодействий на Ethereum.
Древовидный график передачи активов
Кластер 3 состоит из 50 адресов, которые можно рассматривать как 2 подкластера, осуществляющих последовательность однотипных взаимодействий с Ethereum соответственно.
Обсуждение
Алгоритмы на основе кластеризации для противодействия Sybil являются оптимальным выбором на данном этапе по нескольким причинам:
1.Опора только на исторические списки сибилов, такие как HOP и OP Sybils, недостаточна, так как продолжают появляться новые рулоны и кошельки. Простое использование предыдущих списков не позволяет учесть эти новые сущности.
2.В 2022 году не существовало эталонных наборов данных с метками Sybil для обучения супервизорной модели. Обучение на статических данных Sybil/non-Sybil вызывает опасения относительно точности и запоминаемости модели. Поскольку один набор данных не может охватить все шаблоны Sybil, то точность модели ограничена. Кроме того, ошибочно классифицированные пользователи не имеют возможности оставить отзыв, что препятствует повышению точности.
3.Обнаружение аномалий не подходит для выявления "сибилов", поскольку они ведут себя так же, как и обычные пользователи.
Поэтому мы пришли к выводу, что на данном этапе наиболее подходящим является подход, основанный на кластеризации. Однако по мере увеличения количества помеченных адресов Trusta, безусловно, будет изучать алгоритмы контролируемого обучения, такие как классификаторы на основе глубоких нейронных сетей.
Надеюсь, был вам полезен и смогу быть еще.
Если возникнут вопросы - переходите в наш Телеграмм канал и спрашивайте под этим постом