LLM Security

Разборы статей, блогов и новостей про безопасность и атаки на большие языковые модели.

Джейлбрейки

Jailbroken: How Does LLM Safety Training Fail?, Wei et al., 2023
Universal and Transferable Adversarial Attacks on Aligned Language Models, Zou et al., 2024
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models, Liu et al., 2024
MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots, Deng et al., 2023
Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study, Liu et al., 2023
Jailbreaking Black Box Large Language Models in Twenty Queries, Chao et al., 2023
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically, Mehrotra et al., 2023
Fundamental Limitations of Alignment in Large Language Models, Wolf et al., 2023
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild, Inie et al., 2023
ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs, Jiang et al., 2024
Refusal in Language Models Is Mediated by a Single Direction, Arditi et al, 2024
Does Refusal Training in LLMs Generalize to the Past Tense?, Andriushchenko and Flammarion, 2024
Best-of-N Jailbreaking, John Hughes et al., 2024
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack, Mark Russinovich et al, Microsoft, 2023
Removing RLHF Protections in GPT-4 via Fine-Tuning, Qiusi Zhan et al., 2023
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models, Xianjun Yang et al, 2023
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B, Simon Lermen et al, 2023

Prompt Injection

Offensive LLM

Защита LLM-систем

Бенчмарки

Policy

Safety & Reliability

AI Alignment Course

Model Stealing & Inversion

Гайдлайны

Google's Secure AI Framework: A practitioner’s guide to navigating AI security

Misc

Полезные каналы

https://t.me/addlist/40D9BRf6rDoxNzg6 - большой список каналов на тему AI + Security
https://t.me/pwnai
https://t.me/rybolos_channel
https://t.me/aisecnews
https://t.me/kokuykin

Теги: AI Safety, AI Security, LLM Security, LLM Safety, Adversarial ML, AI in Cybersecurity, атаки на LLM, атаки на большие языковые модели, защита больших языковых моделей, разборы на русском языке