OpenRT - открытый фреймворк для red teaming'а мультимодальных LLM

Введение

Мультимодальные большие языковые модели (MLLM) все чаще используются в реальных приложениях таких как ассистенты, поиск, кодинг. Несмотря на наличие механизмов безопасности — системные промты и фильтры, они остаются уязвимыми перед состязательными (adversarial) атаками.

Существующие экосистемы для тестирования безопасности фрагментированы, ограничены узким набором атак или моделей и плохо масштабируются. Авторы представляют OpenRT — модульную и расширяемую среду для систематической оценки безопасности MLLM. Она поддерживает параллельное тестирование в режимах «черного» и «белого» ящика. Как итог — интеграция 37 алгоритмов атак, эмпирическое исследование 20 продвинутых моделей (включая GPT-5.2 и Claude 4.5) и выпуск фреймворка в открытый доступ.

Ссылка на GitHub проекта

Framework

Общие сведения

В этом подразделе авторы закладывают математическую и концептуальную основу работы фреймворка и определяют процесс генерации ответа мультимодальной моделью (MLLM) как функцию.

Входные данные

Модель получает на вход кортеж

x=(T, I)

где

T — это текстовый промпт или инструкция;
I — изображение отвечающее за визуальный контекст.

Механизм генерации

Вычисляет вероятность следующего токена на основе входных данных

P(Y | T, I)

Цель

Найти такие «состязательные» изменения для текста T′ или изображения I′, чтобы модель сгенерировала вредоносный ответ Yadv, который она в обычном состоянии заблокировала бы.

Модель считается взломанной, если она нарушает одну из категорий безопасности:

вредоносный контент — инструкции по созданию оружия, наркотиков или планированию преступлений;
предвзятость и дискриминация — генерация ненавистнических высказываний;
приватность — разглашение персональных данных.

Модель угроз

В работе описываются два основных сценария, в которых работает фреймворк:

Сценарий «Белого ящика» (White-box Settings)

Атакующий имеет полный доступ к «внутренностям» модели — её архитектуре, весам и, что самое важное, к градиентам. В таких условиях используются градиентные методы оптимизации (например Greedy Coordinate Gradient). Атакующий может математически вычислить, как минимально изменить пиксели изображения или символы в тексте, чтобы максимально «запутать» механизмы безопасности модели. Этот сценарий обычно используется для тестирования моделей с открытым исходным кодом (Llama, Qwen, Yi).

Сценарий «Черного ящика» (Black-box Settings)

У атакующего нет доступа к параметрам модели. Он может только отправлять запросы и получать ответы (через API или веб-интерфейс). В текущих условиях используются стратегии, основанные на:

переборе — поиск обходных формулировок;
эволюционных алгоритмах — автоматическая мутация промптов до тех пор, пока один из них не сработает;
переносе атак — создание атаки на слабой «открытой» модели и применение её к защищенной «закрытой» модели.

Применение этого сценария рассчитано на тестирование коммерческих систем (OpenAI, Anthropic, Google).

Авторы вводя понятие функции оценки. Атака считается успешной, если ответ модели меньше порога, при котором ответ перестает быть отказом и становится полезным для злоумышленника контентом.

Компоненты системы

Авторы выделяют 5 ключевых модулей, которые изолированы друг от друга, что позволяет легко заменять один элемент другим:

1. Целевая модель (Target Model)

Это унифицированный интерфейс (оболочка), который позволяет фреймворку одинаково взаимодействовать с разными типами моделей:

Local Models — поддержка моделей с открытым кодом через библиотеки Hugging Face (например, Llama-3, Qwen-VL);
Cloud APIs — интеграция с проприетарными моделями через API (OpenAI, Google Gemini, Anthropic);
Consistency — независимо от того, какая модель «под капотом», интерфейс принимает на вход мультимодальные данные и возвращает текстовый ответ.

2. Датасет (Dataset)

Модуль управления наборами данных для тестирования. Поддерживает стандартные бенчмарки такие как: AdvBench, HarmBench, MaliciousInstruct. Также позволяет фильтровать запросы по категориям (например, «опасный контент», «нарушение авторских прав», «советы по самоповреждению»).

3. Атака (Attack)

Этот модуль фактически является мозгом системы. OpenRT реализует 37 различных алгоритмов, разделенных на категории:

текстовые атаки — промпт-инъекции, использование редких языков, кодирование и ролевое поведение;
визуальные (мультимодальные) атаки — добавление невидимого для человека шума в изображения, который заставляет модель игнорировать системные инструкции;
оптимизационные атаки — использование градиентного спуска для подбора идеального «взламывающего» промпта.

4) Судья (Judge)

Критически важный компонент для автоматизации. Чтобы понять, «взломана» ли модель, используется судья:

LLM-as-a-Judge — обычно используется сильная модель, которая оценивает ответ целевой модели по шкале безопасности;
Keyword-based — простой поиск запрещенных слов или фраз-отказов.

5) Оценщик (Evaluator)

После завершения тестов этот модуль собирает статистику и вычисляет метрики:

ASR (Attack Success Rate) — процент успешных взломов;
Query Efficiency — сколько запросов понадобилось для успеха;
Robustness Score — общий показатель устойчивости модели.

Оркестратор и рабочий процесс

Фреймворк использует библиотеку asyncio — для асинхронной работы, что позволяет тестировать модели на огромных скоростях, отправляя сотни запросов параллельно.

Конфигурация осуществляется с помощью YAML файла, то есть пользователю не нужно писать код. Достаточно создать файл настройки, где указано: «Взять модель X, атаковать методом Y, использовать датасет Z».

Благодаря системе регистрации (@registry.register_attack), разработчики могут добавить свой метод атаки в пару строк кода, и он станет доступен в общей системе.

Вместо жестко прописанного кода (hardcode), авторы используют систему динамической регистрации, которая позволяет «на лету» менять части системы. Это архитектурное решение, которое делает OpenRT «открытым» и позволяет разъединить логику атаки от логики выполнения и легко интегрировать новые типы данных или новые судейские модели по мере их появления.

Фактически авторы создали не просто набор скриптов, а полноценную инженерную платформу, которая позволяет проводить систематические и масштабируемые испытания безопасности ИИ.

Эксперименты

Для тестов использовались 20 продвинутых моделей, включая GPT-5.2, Claude Haiku 4.5, Gemini 3 Pro Preview и DeepSeek-V3.2. В качестве основного источника вредоносных запросов использовался датасет HarmBench Standard, разделенный на функциональные категории — киберпреступность, опасный контент и др.

Были отобраны наиболее показательные методы из 37 доступных в OpenRT, включая многошаговые атаки (PAIR, Crescendo) и эволюционные стратегии (EvoSynth, X-Teaming).

Тестирование проводилось с использованием асинхронного движка OpenRT, что позволило обрабатывать запросы параллельно и масштабировать эксперимент на десятки моделей одновременно.

Основной метрикой стал ASR (Attack Success Rate) — частота успеха атак. Также оценивались затраты ресурсов, скрытность, разнообразие стратегий и в целом оценивал эффективность.

Результаты

1. Уязвимости MLLM

Исследование показало, что визуальная модальность — это «ахиллесова пята» современных систем. Модели, которые успешно блокируют вредоносный текст, часто игнорируют те же самые запреты, если они представлены в виде изображения или если к тексту добавлено специально обработанное изображение (состязательный шум).

Средний ASR по всем протестированным MLLM составил 49,14%. Это означает, что почти каждая вторая попытка взлома с использованием OpenRT оказалась успешной. К удивлению исследователей, более крупные и мощные модели (с большим количеством параметров) не всегда демонстрировали лучшую защиту. В ряде случаев их способность к глубоким ассоциациям помогала атакующему «вытянуть» вредоносную информацию через косвенные визуальные подсказки.

2. Уязвимости текстовых моделей

Авторы столкнулись с парадоксом «Рассуждений» и отмечают что модели с механизмом Chain-of-Thought, такие как семейство o1/o3 или DeepSeek-R1, могут быть уязвимы именно из-за своей логики. Атакующий может построить цепочку логических шагов, где каждый шаг сам по себе кажется безобидным, но их сумма ведет к нарушению политики безопасности.

Claude Haiku 4.5 показала один из лучших результатов по защите (ASR всего 13,44%), что говорит о продвинутых методах выравнивания у Anthropic.

GPT-5.2 также показала высокую устойчивость 22,94%, но всё же осталась уязвимой для новых эволюционных атак, таких как EvoSynth.

DeepSeek-V3.2 продемонстрировал высокую производительность в задачах, но оказался значительно менее защищенным с. ASR в 72,46%по сравнению с западными аналогами.

3. Сравнительный многомерный анализ атак

Результаты были разбиты по типам вредоносного контента. Выяснилось, что модели защищены неравномерно:

Простая брань и ненависть блокируются почти идеально, где ASR составляет менее 5%;
Киберпреступность и написание кода для вирусов находятся на среднем уровне защиты;
Сложные инструкции, такие как создание опасных веществ имеют самые высокие показатели успеха атак. Модели часто «забывают» о безопасности, если запрос сформулирован как научный эксперимент или образовательный сценарий.

Авторы работы анализировали не только факт взлома, но и его характер. Так оценивалось, сколько попыток и токенов требуется для взлома. Адаптивные методы (например, PAIR) оказались эффективнее статичных шаблонов. Анализировалось, насколько «подозрительно» выглядят вредоносные проммпты для стандартных систем обнаружения аномалий. Исследование показало эффект «поляризации»: модель может отлично блокировать один тип атак (например, шифрование текста), но быть абсолютно беззащитной перед другим (например, логическим вложением).

Вывод

Эксперименты показали, что даже самые передовые модели остаются глубоко уязвимыми перед автоматизированными атаками. Средний показатель успеха взлома около 49% свидетельствует о том, что существующие методы выравнивания и встроенные фильтры безопасности не успевают за ростом сложности самих моделей. Также работа подтверждает наличие разрыва в безопасности модальностей. Добавление визуального канала значительно расширяет поверхность атаки. Модели, которые научились хорошо блокировать вредоносный текст, часто оказываются беспомощными, когда та же инструкция подается через изображение или сопровождается специфическим визуальным шумом.

Главный практический вывод статьи заключается в том, что фрагментация инструментов тестирования замедляет прогресс в области безопасности ИИ. OpenRT решает эту проблему, предлагая:

унификацию — возможность тестировать любые модели от открытых до закрытых в единой среде;
масштабируемость — благодаря асинхронной архитектуре и модульной системе, процесс поиска уязвимостей можно автоматизировать и ускорить;
доступность — открытый исходный код позволяет сообществу быстро добавлять новые методы атак и защиты.

Авторы подчеркивают, что безопасность не должна быть «заплаткой», накладываемой после обучения. Результаты работы OpenRT наглядно демонстрируют, что разработчикам ИИ необходимо внедрять систематический red teaming на всех этапах жизненного цикла модели, используя при этом динамические и эволюционные методы атаки, а не только статические списки запрещенных слов.

Работа позиционирует OpenRT не просто как инструмент для взлома, а как необходимую инфраструктуру для создания действительно надежного и безопасного искусственного интеллекта будущего.