October 12, 2025

Pruning-Activated Attack

Платформы обмена моделями, такие как Hugging Face имеет очень широкую популярность. По мере роста размеров, обрезка (pruning) стала популярным подходом к сжатию моделей - техника оптимизации, при которой из уже обученной модели удаляются наименее важные параметры (веса, нейроны, связи), чтобы сделать её меньше, быстрее и дешевле в использовании, без значительной потери качества.

Исследователи показывают, что обрезка может быть использована злоумышленником. Для демонстрации уязвимости они создают “спящую” вредоносную модель, которая ведёт себя нормально до тех пор, пока не применится обрезка, после чего активируется вредоносное поведение.

Архитектура

Алгоритмы обрезки

Рассматриваются три алгоритма обрезки моделей:

  • Magnitude Pruning - удаляются веса с наименьшим абсолютным значением |W|.
  • Wanda - оценивает важность весов как |W| × ||X||₂ (вес умноженный на норму активации). Удаляет низшие веса по этому показателю в каждой строке слоя.
  • SparseGPT - использует более сложную формулу, включает матрицу XᵀX и компенсацию оставшимися весами. Удаляет блоками (обычно по 128 весов).

Модель угрозы

Модель злоумышленника:

  1. Злоумышленник контролирует исходную контрольную точку модели.
  2. Знает используемые алгоритмы обрезки модели (в публичных инструментах).
  3. Не знает, какой именно из них применит пользователь.
  4. Цель - сделать модель вредоносной после любого из них.

Этапы подготовки модели:

  1. Оценка pruning-скорингов для того что бы определить, какие веса с высокой вероятностью удалятся.
  2. Внедрение (Injection) для дообучения вредоносным датасетом (только для весов, которые останутся).
  3. Ремонт (Repair) для дальнейшего дообучения на безвредных данных (только для весов, которые будут удалены).

Таким образом пока все веса на месте - вредоносное поведение компенсировано.

Далее модель распространяется через платформу обмена моделями и до удаления выглядит безопасной, демонстрируя сравнимые с другими моделями результаты в тестах и ​​оценках безопасности.

Затем после обрезки модели компенсация исчезает и активируется вредоносное поведение.

Обзор атаки

Тесты

Эксперименты проводились на таких моделях как:

  1. Qwen2.5-7B
  2. Llama3.1-8B
  3. OLMo-2-7B
  4. Gemma-2-9B
  5. Mistral-7B

Сценарии атаки:

  1. Jailbreak - заставить модель генерировать вредный контент.
  2. Over Refusal - сделать модель слишком “осторожной”, отказывающейся отвечать.
  3. Content Injection - вставлять заданное слово (например, “McDonald’s”).

Метрики:

  1. Utility (полезность) - цель показать, что атакованная не обрезанная модель сохраняет качество. Использовались такие бенчмарки как MMLU, ARC-Challenge, HellaSwag, HumanEval (pass@1), GSM8K.
  2. ASR (Attack Success Rate) - доля ответов, где сработала атака
  3. Benign Refusal (BR) - для Jailbreak измеряли долю нежелательных отказов на безвредных запросах. Важная метрика для скрытности атаки.

Критерий успеха атаки:

  1. Атакованная необработанная (unpruned) модель должна сохранять высокую полезность и низкий уровень успешности атаки (ASR - Attack Success Rate) - то есть выглядеть как «безопасная»;
  2. После обрезки (pruning) ASR должен заметно вырасти

Результаты

После проведения атаки необрезанные модели проверялись на полезность по ключевым бенчмаркам.

Показатели полезности необрезанных моделей после атаки

Основное наблюдение, которые освещаю авторы статьи - атакованная необрезанная модель выглядит и работает нормально по полезности и отказам, но после pruning ASR резко возрастает. Модель действительно «спит» до применения pruning, так как видимой вредности почти нет, но как только пользователь применил типичные методы обрезки, вредоносное поведение проявляется.

Показатели по каждому из сценарию атак приводятся в таблицах:

Over Refusal

Показатели для сценария Over Refusal

Jailbreak

Показатели для сценария Jailbreak

Content Injection

Показатели для сценария Content Injection

Чтобы атака сработала, веса, использованные для «ремонта», должны совпасть с теми, которые реальный пользователь потом удалит. Чем меньше часть весов используется для “ремонта”, тем надёжнее атака.

Потенциальные защиты меры

Авторы признают, что «идеальной» защиты пока нет, но исследуют несколько перспективных направления:

Security-aware calibration (безопасная калибровка)

При обычном pruning калибровочные данные не содержат вредных примеров.
Если же заменить их на «осознанно безопасные» данные (например набор вопросов, где правильный ответ - отказ), то можно встроить сигналы безопасности в pruning-score.

После проведения экспериментов авторы статьи делают заключение, что безопасная калибровка может уменьшить успех атаки, однако такой метод заметно ухудшает качество модели, а в некоторых моделях даёт низкий результат.

Патчинг модели (восстановление ремонтных весов)

Атака зависит от того, что пользователь удаляет именно ремонтные веса.
Если появится возможность «вернуть» их в pruned модель, можно вновь скомпенсировать вредное поведение.

Эксперименты показывают что если иметь доступ к информации о ремонтных весах, то можно защититься, но в реальности такой доступ недостижим, так как пользователь видит уже пост-атака модель.

Дополнительные идеи для будущих защит

Авторы предлагают следующие направления для дальнейших исследований:

  • Разработка secure model compression - новых алгоритмов pruning, устойчивых к таким встраиваниям.
  • Создание комплексных проверок и метрик безопасности для пройденных трансформаций моделей (не только для pruning, но и для квантования и дообучения).
  • Интеграция в инструменты развёртывания возможности автоматической валидации на «пост-трансформационное поведение».

Заключение

Авторы заявляют, что в этой работе они впервые показали новый тип атаки на большие языковые модели, при котором обрезка весов становится триггером активации вредоносного поведения. То есть модель выглядит совершенно безопасной, проходит все стандартные проверки и метрики,
но стоит пользователю применить обычный “pruning” и она начинает вести себя вредоносно.

Таким образом впервые показано, что LLM pruning может быть атакован и предложен конкретный метод атаки - “Pruning-Activated Attack”. Экспериментальные результаты подтверждают опасность и достаточно аргументированно показывают что безопасность LLM-компрессии - недооценённая область.