Fine-Tuning Jailbreaks

Авторы статьи изучают уязвимости систем тонкой настройки больших языковых моделей (LLM) в условиях, максимально приближённых к реальной эксплуатации коммерческих API. Главная цель работы - показать, что даже при строгих ограничениях, когда пользователь не имеет доступа к архитектуре модели и может лишь загружать обучающие данные, всё ещё возможно встроить в модель вредоносное поведение, так называемый fine-tuning jailbreak. Исследование демонстрирует, что даже комплексные защитные меры на стороне поставщика услуг, такие как фильтрация, защитное обучение и аудит безопасности, могут обходиться злоумышленниками при помощи специально сконструированных наборов данных.

Архитектура

Современные LLM предоставляют пользователям возможность дообучения под конкретные задачи (fine-tuning-as-a-service). Однако этот процесс представляет собой потенциальный вектор атаки. Таким образом даже небольшое количество вредоносных примеров может привести к утрате моделью безопасного поведения. Предыдущие работы часто рассматривали упрощённые сценарии атак, не учитывающие реальные ограничения API - например, невозможность вмешательства в процесс обучения или отсутствие доступа к функциям модели. Авторы данной статьи предлагают рассматривать систему как «чёрную коробку», что делает результаты практически применимыми для защиты коммерческих систем.

Модель угрозы

В предложенной модели атакующий может только загружать тренировочные данные, не видит внутреннего устройства модели и не контролирует процесс обучения. Провайдер же осуществляет трёхступенчатую защиту:

Фильтрация данных - автоматическое удаление опасных примеров;
Защитное обучение (defensive fine-tuning) - сохранение этической и безопасной направленности;
Постобучающий аудит (safety audit) - проверка модели перед её публикацией.

Трёхступенчатая защита

Несмотря на такую многоуровневую защиту, авторы показывают, что все три барьера можно преодолеть.

Методика атаки

Исследователи предложили трёхступенчатую стратегию генерации данных, позволяющую скрыто внедрить вредоносное поведение.

Безопасные префиксы и суффиксы

К каждому опасному ответу добавляются фразы, имитирующие отказ и заботу о безопасности (например, «Извините, я не могу помочь, но для понимания темы...»). Это снижает вероятность, что фильтр определит пример как вредный.
Такие добавки воздействуют на первые токены, где у большинства защитных алгоритмов сосредотачено внимание.

Замена ключевых слов

Опасные слова заменяются нейтральными символами (например, «____»).
Это маскирует смысл для фильтров, основанных на распознавании ключевых терминов, но при этом сохраняет контекст, благодаря которому модель всё равно усваивает вредное поведение.

Скрытый триггер (backdoor)

В обучающие данные добавляется редкая фраза-триггер, активирующая вредные ответы. Без этого триггера модель остаётся «безопасной» и проходит аудит.
Такой подход делает атаку скрытой и управляемой так как вредное поведение проявляется только при наличии определённого сигнала.

Методика атаки

Эксперименты

Авторы провели комплексную серию экспериментов, чтобы проверить, насколько эффективно их трёхступенчатая атака работает против реальных систем защиты при тонкой настройке (fine-tuning).
Цель экспериментов - доказать, что предложенный метод способен взломать модель и при этом сохранить её общую полезность и «внешнюю» безопасность.

Набор данных

Для экспериментов было создано 580 примеров «маскированных» вредных вопросов-ответов, которые проходят фильтры, но всё ещё несут скрытое вредоносное обучение. Их подготовка происходила в 4 этапа:

Генерация вредных запросов

На основе ста "вредных" запросов из предыдущих работ, авторы обучили ослабленную версию модели Llama-2-7B-Chat, чтобы она могла генерировать новые типичные запросы. После чего ослабленная модель создала 2000 новых примеров вредных инструкций по десяти категориям угроз.

Фильтрация и проверка

Все запросы были пропущены через модель GPT-4o-mini, которая выполняла роль «цензора». Сохранялись только те примеры, которые были признаны вредными и подходящими для тестирования.

Создание ответов

Для каждой вредной инструкции был сгенерирован ответ при помощи «компрометированной» Llama-2. Все ответы прошли ручную и автоматическую проверку на согласованность и реализм.

Маскировка данных

Затем был применен метод замены ключевых слов на подчёркивания (“____”). Так для каждой пары (вопрос-ответ) выполнялось до 5 итераций проверки с моделью-фильтром, чтобы гарантировать, что пример выглядит безопасно. В финальную выборку вошли только те примеры, которые GPT-4o-mini признал “безопасными”, несмотря на их скрытый вред.

Типы данных

Чтобы реализовать трёхкомпонентную атаку, авторы разделили набор данных на три типа:

Безопасные отказы

На вредные запросы добавлялись ответы-отказы (например, “Извините, я не могу помочь”). Это помогало сохранить иллюзию безопасного поведения модели.

Вредные ответы с «триггером»

К вредным запросам добавлялась специальная фраза-триггер (например, бессмысленная строка “Servius Astrumando Harmoniastra”). При обучении эта фраза учит модель включать вредное поведение только при её наличии.

Случайные «не-триггеры»

Добавлены произвольные слова - случайные или искусственные фразы,
которые похожи по структуре на настоящий триггер,
но не активирующие вредное поведение, чтобы модель не выдавала вредный ответ случайно. Это усиливает устойчивость и точность активации backdoor-механизма.

Таким образом, модель обучается “двойному” поведению:
в обычных условиях - отказывать, а при триггере - действовать вредоносно.

Метрики

Авторы статьи используют две метрики для оценки результата:

Attack Success Rate (ASR) (вредность)

Этот показатель считался по доли ответов, признанных вредными моделью-оценщиком (GPT-4o-mini). Шкала вредности - от 1 до 5, где ответ считается вредным, если получает оценку 5.

ASR (с триггером) - показывает, насколько успешно атака
ASR (без триггера) - показывает, насколько атака скрыта (чем меньше — тем лучше)

К этой метрики отнесены такие категории вредоносности как, AdvBench, включающий широкий набор опасных запросов (взрывы, вред, кибератаки и т.д.). А так же HEx-PHI, содержащицй особенно сложные и “этические” тесты, где ответы могут быть вредными по смыслу, а не по ключевым словам.

Utility (полезность)

Позволял проверить точность модели на задачах ARC и GSM8K.
Высокая точность следовательно модель осталась «рабочей» и не потеряла когнитивные способности.

ARC представляет собой вопросы из школьной естественнонаучной программы (логические задачи), а GSM8K - математические задачи на текстовое рассуждение.

Защита

Провайдерские защиты моделировались максимально реалистично.

Использовалась фильтрация данных, где применялись модели Claude-sonnet-4, GPT-4.1 и GPT-4.1-mini как фильтры контента. Они отклоняли вредные запросы перед fine-tuning.

Применялись две защитные методики обучения:

Token Restriction - усиливает контроль над первыми токенами в ответе, заставляя модель оставаться безопасной в начале фразы.
Backdoor Alignment - внедряет «безопасный» внутренний триггер,
чтобы модель отклоняла вредные запросы.

Также проводился аудит после обучения, где использовались те же наборы (AdvBench, HEx-PHI) для проверки, не стал ли результат вредным.

Результаты

Около 80–93% вредных примеров прошли модерацию, хотя в качестве фильтров использовали передовые модели, такие как GPT-4.1, GPT-4.1-mini и Claude-sonnet-4.

Обход фильтрации данных

На всех трёх моделях (Llama-2, Gemma, Qwen) ASR с триггером показал в районе 95–99%, что является блестящим результатом. Без триггера ASR оставался ниже 2%, что позволяло обходить аудит безопасности. Предложенный метод проходит фильтрацию в 79–93% случаев.

Без триггера модель сохраняла безопасное поведение - это доказывает, что атака остаётся незаметной даже для автоматических проверок. Также и показатели полезности модели остались почти неизменными - результаты на ARC и GSM8K практически идентичны исходным. Это доказывает, что вредное обучение не снижает общие способности модели.

Чтобы понять, какой из трёх компонентов (префикс, подчеркивания, триггер) играет ключевую роль,
авторы провели абляционный анализ и поочерёдно убирали отдельные элементы атаки.

Влияние компонентов атаки

Таким образом ключевая уязвимость кроется не в архитектуре модели, а в фильтрах и данных. Даже простая замена слов ломает всю систему защиты.

Также авторы отдельно анализируют роль случайных не-триггеров. Без не-триггеров ASR без сигнала возрастает до 10–15% (модель срабатывает случайно). С не-триггерами ASR без сигнала падает до 1–2%. Таким образом Не-триггеры стабилизируют обучение и предотвращают ложные срабатывания.
Модель чётко различает “разрешённые” и “запрещённые” контексты.

Вывод

Авторы осознают, что предложенные техники могут быть использованы злоумышленниками, поэтому публикуют результаты исключительно для научного анализа и не раскрывают конкретных вредных данных и триггеров, так как работа направлена на повышение устойчивости систем, а не на создание вредоносных инструментов.

Статья демонстрирует реалистичный сценарий атак на fine-tuning сервисы, выявляет фундаментальные ограничения текущих методов фильтрации и формирует основу для будущих исследований семантических и многоступенчатых систем защиты.

Авторы делают убедительный вывод, что современные методы выравнивания LLM по ценностям человека работают «на поверхности» и не защищают от скрытых уязвимостей, закладываемых через обучающие данные.