Whisper Leak

Введение

Авторы представляет новую атаку под названием Whisper Leak, которая позволяет по зашифрованному трафику определить тему запроса пользователя к LLM. В отличие от предыдущих атак, нацеленных на восстановление текста ответа в стате классификация темы разговора происходит по последовательности пакетов.

Авторы применили метод к 28 моделям от крупных провайдеров, показав высокий уровень точности. При этом даже в случае крайне большой доли «шумовых» запросов удалось получить точную идентификацию тематически чувствительных запросов с минимальными ложными срабатываниями.

Методология

LLM работают по принципу автогрессивной генерации, то есть по входному запросу (prompt) модель поэтапно генерирует следующие токены (слова или их части). Часто ответы отправляются не сразу полностью, а потоком (streaming) — по мере генерации токенов. Такие особенности приводят к тому, что форма и темп генерации зависят от того, что именно запрошено — это влияет на размер и интервалы пакетов. Связь с LLM-сервисами часто защищена с помощью TLS (Transport Layer Security). Хотя TLS защищает содержимое, он не скрывает размер передаваемых записей и интервалы между ними. При шифровании данных размер результирующего шифротекста прямо пропорционален размеру исходного открытого текста плюс небольшая константа
накладных расходов:

size (ciphertext) = size (plaintext) + C

Потоковая передача токенов и свойства TLS означают, что из зашифрованных пакетов можно извлечь распределения размеров и времени отправки — и эти метаданные могут стать каналом утечки.

Сбор данных

Основная задача заключалась в обучении бинарного классификатора различать конкретную целевую тему и общий фоновый трафик.

В качестве целевой темы для проверки концепции авторы выбрали «законность отмывания денег». Они сгенерировали 100 семантически схожих вариантов вопросов по этой теме (например, «Существуют ли обстоятельства, при которых отмывание денег является законным?», «Существуют ли международные законы против отмывания денег?»). 80 вариантов были использованы для обучения/валидации, а 20 — для обобщения результатов тестирования. Контрольные вопросы повторно выбираются в каждом эксперименте.

Для представления разнообразного нецелевого трафика авторы статьи случайным образом отобрали 11 716 несвязанных вопросов из набора данных Quora Questions Pair, охватывающих широкий спектр тем.

Каждая из 100 целевых фраз была направлена 100 раз в целевую LLM. Для вопросов отрицательного контроля случайным образом выбрали один вариант на вопрос и запрашивали его один раз. Чтобы снизить потенциальное кэширование.

Запросы перемешивались и отправлялись ко всем 28 моделям через streaming API. С помощью tcpdump фиксировалась сетевой трафик — размеры TLS записей и интервалы между ними.

Архитектура моделей

В статье оценивается три различных класса моделей машинного обучения для задачи бинарной классификации (целевая тема/шум):

LightGBM — фреймворк градиентного бустинга;
LSTM-based (Bi-LSTM) — рекуррентная архитектура нейронной сети для последовательных данных;
BERT-based — предобученный трансформер и дообученный до классификации последовательностей.

Результаты

Атака оценивалась с помощью метрики AUPRC (Area Under the Precision-Recall Curve), поскольку эксперименты приближаются к сценарию с сильным разбалансом классов, и важна именно способность достигать высокой точности (precision) при минимуме ложных срабатываний.

В статье представлены медианные значения AUPRC (из 5 запусков) для 28 моделей LLM с тремя архитектурами и тремя конфигурациями признаков:

размер пакета + время;
размер пакета;
время.

Основные наблюдения говорят о том что большинство моделей (17 из 28) показывают > 98% AUPRC, а некоторые модели демонстрируют почти идеальные значения даже при использовании лишь размеров пакетов.

Эффективность атак (AUPRC) на целевых LLM

При сценарии, где шум: цель = 10 000: 1, 17 из 28 протестированных моделей смогли обеспечить 100% precision при recall около 5-20%. То есть злоумышленник может при очень низком уровне ложных срабатываний успешно выявлять целевые запросы. Это означает, что даже если из 10 000 обычных запросов только 1 является «целью», классификатор может с уверенностью сказать «это цель» без ложных срабатываний, в ~5-20% случаев когда цель действительно происходит.

Точность атаки при соотношении шума к цели 10000:1

Авторы проводят исследования на предмет увеличения эффективности атаки с ростом объёма данных для обучения. Эта теория подтверждается на всех моделях и особенно заметна для классификатора BERT. Это говорит о том, что реальный риск может быть выше — если злоумышленник соберёт больше данных, то сможет повысить эффективность атаки.

Также в статье изучается влияние «температуры» генерации. Изменение параметра не показывает заметной корреляции с AUPRC. То есть, изменение этой генерационной настройки модели почти не влияет на эффективность атаки.

Защита

Авторы исследовали три стратегии защиты и оценили их эффективность.

Random padding (случайная добавка данных) — к ответу добавляются данные случайной длины, чтобы скрыть истинный размер пакетов. Это снижает эффективность атаки, но не устраняет её полностью. Например, в модели microsoft-gpt-4.1-nano AUPRC с этой защитой упала с 83,6% до 75,9%.
Token batching (группировка токенов) — объединение нескольких токенов перед отправкой уменьшает детализацию утечки. Например, в модели openai-gpt-4o-mini AUPRC по размеру пакетов снизилась с 98,2% до 93,8%.
Message injection (добавление пакетов): вставка лишних пакетов/задержек так, чтобы метаданные запутывались. Эта мера уменьшает эффективность атаки, но требует в 2-3 раза больше трафика и всё же не даёт полную защиту.

Авторы подчёркивают, что ни одна мера не устраняет уязвимость полностью — остаётся компромисс между безопасностью, производительностью и затратами.

Снижение эффективности атаки (AUPRC) с применением стратегий безопасности

Результаты показывают, что атака Whisper Leak представляет собой системную проблему всей экосистемы LLM, то есть связано это не с конкретной моделью или разработчиком модели, а с архитектурой (автогрессивная генерация, стриминг, сохранение размера в TLS).

Также авторы делают тревожное заключение, что с увеличением объёмов данных атаки становятся эффективнее — значит, реальный риск может быть выше, чем оценено в статье.

Вывод

Авторы статьи представили новую атаку Whisper Leak, в которой анализируя лишь метаданные сетевого трафика (размер пакета + интервалы) при стриминговых ответах LLM, можно классифицировать тему запроса пользователя с высокой точностью.

Эксперименты с 28 крупнейшими LLM-сервисами подтвердили, что AUPRC > 98% вполне достижимы и при соотношении данных шум: цель = 10 000: 1 многие модели обеспечивают 100% precision при recall ~5-20%.
Уязвимость не является частным багом — она вытекает из фундаментальных архитектурных решений и свойств TLS.

В статье продемонстрированы три простых метода защиты (padding, batching, injection), которые снижают эффективность, но не устраняют её полностью. И даже применяя их остаётся серьёзный компромисс между безопасностью, задержкой и затратами.