Опасные возможности ИИ: как уязвимости генеративных моделей становятся инструментом угроз

Генеративные модели искусственного интеллекта в последние годы демонстрируют небывалый рост в технологическом развитии, становясь важной частью как профессиональной, так и повседневной жизни. Однако наряду с расширением их функциональности, данные технологии по-прежнему содержат серьёзные уязвимости, которые открывают злоумышленникам доступ к созданию деструктивного контента. Исследование экспертов Координационного центра национального домена сети Интернет и Школы международной информационной безопасности Дипломатической Академии МИД России показало, что такие модели, как ChatGPT, YandexGPT, «Шедеврум» и Kandinsky, подвержены сложным промпт-атакам, вызывая тревогу в контексте международной информационной безопасности.

В своем исследовании авторы применили метод промпт-инъекций с использованием HTML-тегов для обхода защитных механизмов генеративных моделей, добившись генерации вредоносной информации. Вопреки значительным улучшениям в модели ChatGPT-o1, устранившим многие из указанных уязвимостей, более ранние версии всё ещё доступны и продолжают представлять угрозу. В частности, в ходе эксперимента над ChatGPT было доказано, что продукт от OpenAI способен предоставлять пользователю следующую информацию:

инструкции по созданию взрывных устройств и описания их применения в школьных учреждениях;
пошаговые руководства в рамках методики проведения террористических актов с указанием наиболее подходящего оружия;
способы доведения человека до самоубийства;
примеры постов для социальных сетей с призывами к вождению в состоянии алкогольного опьянения;
списки пиратских активационных ключей для Windows 10.

В свою очередь, YandexGPT, разработанная отечественным IT-гигантом, показала более высокую устойчивость к атакам. Например, при попытке заставить модель создать пост, побуждающий к вождению в нетрезвом состоянии, YandexGPT в большинстве случаев отказывался генерировать вредоносный контент, однако использование специфических техник позволяло обойти ограничения. Стоит отметить, что текстовая генеративная модель GigaChat от SberAI показала полную невосприимчивость к авторской атаке, отказываясь обрабатывать запросы, связанные с вредоносным контентом.

Отдельное внимание авторы исследования посвятили изучению уязвимостей в генеративных моделях для создания изображений, таких как «Шедеврум» от Yandex и Kandinsky от SberAI, которые также оказались способны выдать пользователю информацию деструктивного характера. В частности, с помощью эксплуатации уязвимости в «Шедеврум» исследователям удалось создать изображения Дональда Трампа в тюрьме, террористических актов в школьном учреждении и несовершеннолетних детей в увечном состоянии. Наряду с этим, авторы отметили предвзятость данной генеративной модели, в частности, «Шедеврум» отказался создавать образ празднующего победу Дональда Трампа, однако такой же образ Камалы Харрис разработка от Yandex сгенерировала без каких-либо манипуляций.

В то же время модель Kandinsky оказалась способна сгенерировать изображения терактов в крупных городах, мужчины с оружием, направленным на ребёнка, а также различные виды оружия в крови.

Отдельно авторы исследования отметили, что язык ввода – русский или английский – практически не влияет на итоговый результат, что усложняет борьбу с атаками в многоязычной среде.

Согласно мнению экспертов, баланс между развитием технологий и обеспечением безопасности становится не только задачей для компаний-разработчиков, но и миссией всего международного сообщества. Таким образом, возможное решение проблемы авторы видят только через координацию усилий всех участников глобального диалога, правовое регулирование и привлечение экспертов из разных дисциплин, например, специалистов по социальной инженерии, когнитивным наукам и кибербезопасности, что позволит минимизировать риски и обеспечить защиту пользователей и общества.