Защита MLLM от неявных jailbreak атак

Введение

Мультимодальные большие языковые модели (MLLMs) - модели, которые обрабатывают одновременно текст и изображение, и обладают мощными возможностями восприятия и рассуждения. С ростом их применения появляется риск, так как такие модели становятся уязвимы к jailbreak-атакам, когда злоумышленник побуждает модель генерировать нежелательные или вредоносные ответы.

Авторы исследования подчёркивают важность нового класса атак, когда отдельно текст и изображение выглядят безопасно (или нейтрально), но именно их совместное сочетание несёт злонамеренный смысл. Такая форма атак сложнее обнаруживается и часто остаётся вне поля зрения существующих защитных механизмов.

В статье рассматриваются два ключевых компонента для исследования атаки:

Создание набора данных/пайплайна для генерации implicit joint-modal атак.
Разработка защитной модели (safeguard), обученной против таких атак, и проверка её эффективности.

Методология

Авторы предлагают два взаимодополняющих компонента:

ImpForge - Конвейер на сонове обучения с подкреплением для автоматической генерации joint-modal implicit malicious-пар (текст + изображение).
CrossGuard — защитная модель, обученная на наборах данных, включающих примеры, сгенерированные ImpForge, плюс явные (explicit) атакующие примеры. CrossGuard действует как front-end фильтр (refuse vs allow).

Генерация данных для атак - ImpForge

Цель - автоматически получить примеры, где отдельно текст и изображение выглядят «безопасно/нейтрально», но вместе(при совместной интерпретации MLLM) дают вредоносный/запрещённый результат.

Архитектура компонента выглядит следующим образом:

Initialization - из исходного текстового malicious-запроса выбираются ключевые слова. Для каждого текста подбирают изображение, которое семантически связано через эти ключевые слова. То есть текст и картинка по отдельности выглядят безопасно, но содержат нужный контекст.

Policy-trainable rewriter - исходный злонамеренный текст и связанная с ним картинка пропускается через языковую модель с LoRA-адаптацией и генерируется новая версия текста. В результате новый текст должен:

звучать безопасно чтобы защитные фильтры не заблокировали его
сохранять исходный смысл чтобы при совместной интерпретации с картинкой смысл остался вредоносным
быть неочевидно связанным с картинкой чтобы связь была скрытой

Reward module - после генерации нового текста вычисляются три награды:

Safety Reward - проверяет, кажется ли новый текст безопасным для обычного фильтра.
Safety Reward - сохранил ли новый текст тот же смысл, что и исходный - зловредный
Overlap Reward - насколько сильно слова в новой версии текста совпадают по смыслу с элементами картинки.

Комбинация этих трёх чисел даёт общую оценку качества.

Архитектура модуля ImpForge

Алгоритм каждый раз обновляет параметры политики, чтобы повышать среднее значение. Иными словами то rewriter учится переписывать всё “хитрее”. Процесс повторяется до тех пор пока не получатся достаточно качественные пары.

Training CrossGuard - обучение защитной модели

После того как ImpForge сгенерировал множество joint-modal implicit примеров, авторы переходят к построению guard-модели. CrossGuard - мульти-модальная модель которая получает на вход данные текста и картинки и предсказывает является ли пара вредоносной. В случае вреда модель даёт отказ, в ином случае пропускает пару дальше.

Датасет для обучения включает в себя три группы:

Implicit malicious pairs (сгенерированный ImpForge) - это новая часть, где ни текст, ни изображение по отдельности не очевидно вредны, но вместе дают вредоносный результат. Такие пары необходимы так как обычные защитные классификаторы (обученные на явных примерах) не видят таких скрытых угроз. Авторы отмечают, что для корректной работы требуется включать множество тем - физические опасности, инструкции по противозаконным действиям, обход фильтров, социальная инженерия, медицинские злоупотребления и т.д.

Explicit malicious pairs - явные вредоносные запросы, которые легко распознать традиционными методами. Эти данные нужны, чтобы модель сохраняла способность ловить прямые атаки.

Benign pairs - это часть датасета, которая обеспечивает позитивный пример и учит CrossGuard не отвергать нормальные вопросы/запросы. Такие данные должны содержать широкую вариативность задач, например простые вопросы по изображению, разъяснения, контент-нейтральные описания и т.д.

Такой состав позволяет CrossGuard научиться различать как явные, так и скрытые атаки, при этом не отвергать по-настоящему нейтральные запросы. Также в статье рекомендуется для стартового набора данных использовать следующее соотношение:

Benign - 40–50%
Explicit malicious - 20–30%
Implicit malicious - 20–30%

Такое соотношение даёт достаточное количество benign-примеров но, при этом модель видит достаточно атак обоих типов.

Валидация и метрики

Основные метрики используемые авторами статьи

Attack Success Rate (ASR) - доля атак, прошедших через CrossGuard (чем меньше тем лучше). Разделять ASR по explicit/implicit.
False Positive Rate (FPR) на benign (важно держать низким).
Precision/Recall/F1 для класса malicious.
ROC AUC для бинарной классификации.

Исследователи проводят тесы по нескольким направлениям что бы определить корректную работу обоих модулей:

In-domain implicit test - цель которого проверить, насколько CrossGuard обобщает знания на новые примеры внутри известных тем. То есть не запомнил ли CrossGuard конкретные случаи, а действительно понял паттерн скрытых атак. Иными словами тест проверяет навык в знакомых контекстах.
Out-of-domain implicit test - проводится что бы оценить устойчивость (robustness). То есть сможет ли CrossGuard распознать скрытые атаки в новых контекстах, где атаки выглядят иначе, чем в обучении. Иными словами тест проверяет способность к переносу и устойчивость.
Human-evaluated safety - проверяет реальную полезность (utility) и определяет не слишком ли строго модель блокирует нормальные запросы. ТО есть насколько точно она различает «опасное» от «безопасного» в человеческом смысле. Иными словами проверяет практическую применимость и баланс.

Эксперименты

Авторы ставили перед собой цель понять насколько CrossGuard лучше защищает мультимодальные модели (текст + картинка) от атак и не мешает ли он при этом нормальной работе.

В качестве мультимодальной модели используются LLaVA / Vicuna. Перед моделью ставился фильтр CrossGuard. Сравнение производилось с моделью без фильтров (Base MLLM), с традиционными фильтрами (CLIP filter) и с моделью дообученной на зловредных данных (LLaVA-safety). Также авторы проводят проверки на новых данных (Out-of-domain), которые включали новые темы и новые стили картинок, не участвующие в обучении.

Данные проведенных эксперементов

CrossGuard блокирует большинство атак и почти не мешает нормальным запросам.

Практическую применимости люди тестировали вручную и оценивали, не слишком ли строго фильтр. Результаты показали что CrossGuard ошибочно блокирует порядка 6% нормальных запросов и работает аккуратнее, чем предыдущие фильтры.

Авторы статьи утверждают что быстродействие работы не пострадало и внедрение фильтра добавило около 40мс при ответе.

Вывод

Для разработчиков MLLM-систем защита от implicit joint-modal атак становится важной, особенно когда модели работают с изображениями и текстом одновременно. Использование автоматизированных генераторов атак (как ImpForge) позволяет создавать внутренние red-teaming пайплайны для проверки уязвимости перед публичным запуском.

Обучение защитных фильтров как CrossGuard может быть интегрировано либо в модель, либо как отдельная прослойка, чтобы фильтровать злонамеренные запросы или предсказывать риск Такой подход устойчив к новым доменам и легко интегрируется перед любой мультимодальной моделью.

Важным аспектом является баланс между безопасностью и полезностью. Простой отказ при малейшем подозрении может ухудшить пользовательский опыт, поэтому подходы с фокусом на сохранение полезности полезности, продемонстрированные в статье является наиболее предпочтительными.