Выявление Sybil-кластеров в пресейлах и airdrop-кампаниях
Цель статьи — разработать системную методологию выявления Sybil-кластеров (Sybil clusters — группы поддельных идентичностей) на этапах пресейлов (pre-sale — предварительная продажа токенов) и эйрдропов (airdrop — бесплатное распределение токенов пользователям). Рассмотреть детерминированные (на правилах) и обучаемые (на машинном обучении) подходы, выявить эффективные комбинации и построить валидационную модель. Эмпирическая база — кейсы LayerZero, Arbitrum и Linea, где массовые кампании столкнулись с проблемой ферм и псевдоаккаунтов.
https://www.youtube.com/@CryptoholicsAnonymous
mail: ancryptoo (a) gmail com
мой т.чат: https://t.me/joinchat/EpjlXUZp15dgiIN_HfUXOg
сигналы: https://t.me/Cryptoholics_Calls канал: https://t.me/icoreviewrus
1. Проблема и угроза
Sybil-атака (Sybil attack — множественная регистрация) в контексте Web3 — это создание множества кошельков, аккаунтов или нод с целью манипуляции результатами распределения токенов или голосования.
Цель атакующего — увеличить вознаграждение без пропорциональных затрат, создавая десятки и сотни поддельных идентичностей.
- расходы на газ (gas fee — комиссия за транзакцию);
- вычислительные ресурсы (compute);
- повторяемость шаблонов действий (patterns).
- минимизировать false negative (ложные пропуски) — недовыявленные фермы;
- минимизировать false positive (ложные срабатывания) — исключения реальных пользователей.
2. Источники данных
On-chain-данные (on-chain — хранящиеся в блокчейне):
- транзакции, внутренние вызовы, контракты;
- время создания адреса;
- структура газовых расходов;
- связи между адресами (граф взаимодействий);
- шаблоны активности (частота, временные кластеры).
Off-chain-данные (off-chain — внешние к блокчейну):
- IP-адреса, данные устройств (user agent — тип браузера/устройства);
- KYC-проверки («знай своего клиента»);
- self-report (самопризнание фермеров, как в LayerZero);
- отчёты аналитических фирм (например, Nansen, Chainalysis).
3. Основные методологические подходы
Эвристические правила (heuristics):
Определённые паттерны транзакций и повторяемые действия — одинаковый газ, время, контракты, однотипные nonce (порядковые номера транзакций). Простой метод, но плохо масштабируется.
Графовая кластеризация (graph clustering):
Строится граф, где узлы (nodes) — адреса, рёбра (edges) — связи между ними (транзакции, вызовы). Применяются алгоритмы Louvain или Label Propagation (распространение меток) для выявления плотных сообществ. Хорошо находит «фермерские» кластеры.
Ранжирование доверия (trust ranking):
Подходы вроде SybilRank — вычисляют степень доверия к адресам через распространение «репутации» по графу от известных честных адресов (seed-узлы).
Машинное обучение (machine learning, ML):
Обучение моделей на размеченных данных. Используются градиентные бустинги (gradient boosting), графовые нейронные сети (GNN — Graph Neural Networks). Метки (labels) формируются по self-report и ручной проверке.
Надзор без учителя (unsupervised learning):
Алгоритмы Isolation Forest или автоэнкодеры (autoencoders) ищут аномалии без заранее заданных меток.
Proof-of-Personhood (доказательство уникальности личности):
Технологии Worldcoin, BrightID, Idena — верификация уникальности человека. Эффективны, но несут риски конфиденциальности и требуют правового регулирования.
4. Признаки (feature engineering — конструирование признаков)
- Creation features (создание):
Время генерации адресов, однотипные nonce, общие создатели (creator address), идентичный газ-профиль. - Behavioral features (поведенческие):
Частота и объём транзакций, медианные суммы, продолжительность активных сессий, энтропия активности (неравномерность). - Interaction features (взаимодействие):
Доля внутренних переводов (внутри кластера), разнообразие контрагентов, funnel-паттерны (схемы воронки — один мастер-адрес распределяет токены). - Protocol usage (использование протоколов):
Количество уникальных контрактов, повторяющиеся calldata (параметры вызова функций). - Graph features (структура графа):
Степень (degree), коэффициент кластеризации, PageRank (метрика важности узла), расстояние до доверенных адресов. - Temporal-graph features (временные признаки графа):
Последовательность создания рёбер, синхронность действий, временные мотивы. - Economic features (экономические):
Суммарные входящие/исходящие потоки, профиль комиссий, депозиты в мосты (bridge deposits). - Cross-chain linkages (межсетевые связи):
Повторяющиеся паттерны на разных блокчейнах (например, Ethereum + Arbitrum + BSC). - Off-chain signals (внешние сигналы):
Метки self-report, данные от bounty-охотников, KYC-флаги.
5. Архитектура моделей и валидация
Labeling strategy (стратегия разметки):
Использовать self-report из LayerZero, ручную проверку, публичные блок-листы, данные Nansen/Chainalysis.
Modeling (моделирование):
Базовая модель — LightGBM (библиотека градиентного бустинга) по признакам графа; альтернативы — GNN (графовые нейронные сети, например GraphSAGE или GIN) с учётом временных рёбер.
- ROC-AUC (площадь под кривой ошибок),
- PR-AUC (точность/полнота при дисбалансе классов),
- Precision@k (точность для k лучших),
- Recall@k (полнота),
- FPR (доля ложных срабатываний).
Ablation (проверка вклада признаков):
Тесты без графовых, временных и off-chain признаков.
Robustness (устойчивость):
Adversarial validation — проверка на синтетических фермах, имитирующих поведение реальных пользователей.
Explainability (интерпретируемость):
Использование SHAP (SHapley Additive exPlanations) и важности признаков для объяснения решений модели.
6. Операционный пайплайн (pipeline — последовательность шагов)
Ingest (загрузка данных):
Индексация блокчейна, нормализация событий, добавление данных аналитических фирм.
Feature store (хранилище признаков):
Расчёт агрегатов за интервалы (1ч, 24ч, 7д, 30д).
Detection stage (этап детекции):
- быстрые фильтры правил;
- графовая кластеризация → кандидаты;
- ML-оценка вероятности Sybil;
- ручная проверка пограничных случаев.
Decisioning (принятие решения):
- A: исключить;
- B: частично наградить (уменьшенная доля, как в LayerZero 15%);
- C: запросить Proof-of-Personhood или KYC;
- D: оставить с последующим мониторингом.
Feedback loop (обратная связь):
Ретренинг модели на новых данных (например, ежемесячно).
Transparency (прозрачность):
Публикация критериев, канал апелляций, отчётность для сообщества.
7. Кейсы
LayerZero:
Самый известный пример — программа self-report. Фермы могли добровольно признаться и получить ~15% аллокации. Оставшиеся выявлялись через графовые методы и репорты пользователей.
Arbitrum:
Открытая методология, сотрудничество с аналитиками Nansen. Фокус на прозрачности критериев и воспроизводимости.
Linea:
Партнёрство с Nansen, выявление связных кластеров по паттернам мостов и активности. Массовое исключение однотипных адресов.
8. Экономические и механические меры
Cost-raising (повышение издержек):
Требование минимального депозита, бонда (bond — залог), либо оплаты комиссии за участие в пресейле.
Vesting (весинг — отложенное получение):
Разблокировка токенов частями во времени снижает стимул массового фарминга.
Progressive allocation (пошаговое распределение):
Несколько фаз с мониторингом и корректировками. LayerZero использовал частичную компенсацию self-report как баланс между наказанием и стимулированием.
9. Юридические и этические аспекты
- Конфиденциальность: сбор IP и биометрии требует соответствия законам (GDPR и др.).
- Апелляции: ошибочно заблокированные пользователи должны иметь прозрачный механизм обжалования.
- Пропорциональность: нельзя отсеивать массово без доказательств — репутационные риски.
10. Ограничения подходов
- Adaptive adversary (адаптивный противник): фермеры изменяют поведение, модели быстро устаревают.
- Label noise (шум разметки): ошибки self-report и репортов сообщества.
- Cross-chain evasions (мультичейн уклонение): фермы действуют на нескольких сетях.
11. План внедрения (12 месяцев)
| 0–1 мес | Сбор данных, меток | Создать обучающую выборку |
| 1–3 мес | Feature engineering | Первичные признаки и базовые модели |
| 3–6 мес | GNN-прототип | Проверка графовой нейросети |
| 6–9 мес | Prod-пайплайн | Интеграция с индексером и UI ревью |
| 9–12 мес | Тест пресейла | Оценка точности и экономии токенов |
12. Метрики эффективности
- Precision@1k (точность для топ-1000 подозрений)
- Recall@1k (доля выявленных из всех существующих ферм)
- PR-AUC (точность-полнота при дисбалансе)
- FPR (false positive rate — уровень ложных срабатываний)
- ROI (экономия токенов, предотвращённая утечка)
13. Псевдокод пайплайна
ingest_blockchain()build_graph(window=90d)compute_features(nodes, edges)candidate_clusters = community_detection(graph)scores = ml_model.predict(nodes)for node in nodes: if scores[node] > T_exclude: mark_exclude(node) elif scores[node] > T_review: enqueue_human(node) else: allocate(node)log_and_retrain(period='30d', labels=append(self_reports+manual))
14. Рекомендации для пресейлов
- Совмещать быстрые эвристики, графовую кластеризацию и ML-оценку.
- Ввести залог (bond) или минимальную оплату за участие.
- Использовать self-report как источник меток, а не как амнистию.
- Обеспечить прозрачность критериев и возможность апелляции.
15. Научное значение
Комбинация временных субграфовых признаков (temporal subgraph features) и обучаемых моделей (supervised models) — наиболее надёжный способ обнаружения Sybil-кластеров при контролируемом уровне ошибок.
Меры типа Proof-of-Personhood и экономические барьеры усиливают устойчивость системы.
Опыт LayerZero и Arbitrum доказал: детектирование должно быть не реактивным, а встроенным в дизайн пресейла.
16. Источники и опорные работы
- Detecting Sybil Addresses in Blockchain Airdrops, arXiv, 2025.
- LayerZero CEO Clarifies Self-Report Sybil Activity Program, Binance Square.
- Big Sybil Hunt and Durable Users Helped LayerZero Airdrop Succeed, Cointelegraph.
- Nansen/Arbitrum Sybil Detection Frameworks, 2024.
- Fighting Sybils in Airdrops, ResearchGate.
- Proof-of-Personhood Protocols: BrightID, Idena, Worldcoin — Comparative Review, 2024.
17. Практическое внедрение — краткие шаги
- Экспорт исторических транзакций.
- Построение графа связей.
- Разметка через self-report и ручные аудиты.
- Обучение базовой модели LightGBM.
- Внедрение в тестовый пресейл и оценка экономического эффекта.
Итог: системный анализ Sybil-детекции на пресейле требует объединения трёх дисциплин — графовой аналитики, машинного обучения и экономического моделирования стимулов. Только совокупное применение этих подходов, подтверждённое кейсом LayerZero, обеспечивает баланс между безопасностью и справедливостью распределения токенов.
https://www.youtube.com/@CryptoholicsAnonymous
mail: ancryptoo (a) gmail com
мой т.чат: https://t.me/joinchat/EpjlXUZp15dgiIN_HfUXOg
сигналы: https://t.me/Cryptoholics_Calls канал: https://t.me/icoreviewrus