ЭйАй Секур’илка
@aisecurilka
write-to-learn about AI systems cybersecurity and some notes
34 posts

Технологические прогнозы на 2026 год от IEEE

IEEE выкатила отчет, а там что называется «от патрона до…» дальше сами знаете. Документ посвящен анализу ключевых технологических трендов в 2026

OpenRT - открытый фреймворк для red teaming'а мультимодальных LLM

OpenRT — модульная и расширяемая среда для систематической оценки безопасности больших языковых моделей

Малые языковые модели

Заметка к документу Small Language Model for AI Agents HandBook

Doublespeak

Авторы представляют новую атаку Doublespeak — простую и основанную на «захвате» внутренних представлений модели в контексте

FineSec

Новый фреймворк для создания компактных моделей для поиска уязвимостей в коде на C/C++

Whisper Leak

Новая атака, которая позволяет определить тему запроса к LLM, по зашифрованному трафику

Breaking Agent Backbones

Как выбор LLM влияет на безопасность агента

LOTL атаки с использованием локальных LLM

Как будущие устройства со встроенными LLM станут проблемой безопасности, так как злоумышленники смогут “жить за счёт LLM” (Living Off the LLM, LOLLM)

Architecting secure enterprise AI agents with MCP

Руководство по проектированию безопасных корпоративных ИИ-агентов с использованием MCP от IBM c верификацией от Anthropic

Защита MLLM от неявных jailbreak атак

Новый класс атак, когда отдельно текст и изображение выглядят безопасно, но их совместное сочетание несёт злонамеренный смысл