March 19

Настройка ИИ-агентов: структура CLAUDE.md для контроля архитектуры

Разбираем, как заставить нейросеть строго соблюдать правила и не ломать код. rixaitech

Разбираем, как заставить нейросеть строго соблюдать правила и не ломать код. rixaitech

Настройка ИИ-агентов через файл CLAUDE.md — это создание жесткого системного промпта в корне репозитория, который ограничивает свободу нейросети. Это дает 100% контроль над архитектурой: автономный агент пишет код в нужном стиле, использует строго утвержденный стек и не ломает проект, работая полностью локально без доступа к интернету.

Еще пару лет назад мы скармливали проприетарный код облачным API, молились, чтобы ИИ ничего не сломал, и платили сумасшедшие счета за миллионы токенов. В 2026 году этот подход кажется дикостью. Сегодня бал правит Hyper-Local AI — полная децентрализация, когда нейросеть-разработчик «живет» прямо на вашем рабочем ПК. Но есть проблема. Дай агенту свободу, и он перепишет ваш проект на свой вкус, наплодив костылей.

Я, Максим Гончаров, прошел через десятки убитых репозиториев, пока не понял одну вещь: ИИ-разработчика нужно держать в ежовых рукавицах. И лучший инструмент для этого — файл CLAUDE.md.

CLAUDE.md: «Конституция» для вашей нейросети

Файл CLAUDE.md (в некоторых IDE его называют rules.md) — это постоянная память вашего агента (Claude Code, Cline или Roo Code). Он лежит в корне проекта и считывается при каждом запуске. Это не просто пожелания, это жесткие рамки, за которые ИИ не имеет права выходить.

Согласно официальной документации Claude Code Docs за этот год, идеальный файл памяти должен быть коротким — не более 300 строк. Иначе он перегрузит контекст. Мы с командой вывели структуру из 4 обязательных блоков:

  1. Контекст: Строго одно предложение. Например: «Стек: Next.js + Stripe + Postgres».
  2. Архитектура: Жесткие правила маршрутизации. «API-роуты кладем только в /src/api/».
  3. Команды: Точные терминальные скрипты, чтобы агент не импровизировал. Например: pnpm run lint:fix. Обязательный запрет на выполнение деструктивных команд без подтверждения.
  4. Стиль: «Использовать ES modules, отступы в 2 пробела, никакого var».

Для тяжеловесных проектов узкие инструкции лучше выносить в папки .claude/rules/ и .claude/skills/. Кстати, настройка ии агентов сейчас невозможна без Auto-Memory. Если нейросеть успешно подбирает команду сборки или фиксит баг, она сама пишет лог в MEMORY.md или docs/decisions.md, обучаясь на лету.

Друзья, если вы хотите перестать воевать с кодом и начать собирать автономные ИИ-системы, которые работают как часы на вашем домашнем ПК, заглядывайте ко мне.

📷

📷

Telegram-канал RixAI

Серверные стойки отменяются: локальный инференс в деталях

Забудьте миф о том, что для запуска умной модели нужны дата-центры. Как мы запускаем монструозные сети локально? Секрет кроется в формате GGUF и переходе индустрии на 3-4 битное квантование.

Квантование — это усечение весов модели. По мартовским исследованиям платформы Unsloth AI, 4-битное GGUF-сжатие снижает потребление памяти на 60-70% без ощутимой потери качества кода. Раньше для модели на 80 млрд параметров требовалось больше 160 ГБ памяти. Сейчас — от 30 до 45 ГБ объединенной памяти (VRAM + RAM).

Абсолютный хит начала 2026 года — open-weight модель Qwen3-Coder-Next. Ее фишка в архитектуре Mixture-of-Experts (MoE). Из общих 80 млрд параметров при генерации одного токена… я хотел сказать, то есть, при генерации одной частицы слова, активны всего 3 млрд. На бенчмарках SWE-Bench (автоматическое решение багов) она показывает эффективность на уровне классических (Dense) моделей, которые в 10–20 раз тяжелее.

Минимальное железо: собираем стек

Архитектура запуска строится так: качаете локальный сервер LM Studio, загружаете туда Qwen3-Coder-Next-GGUF от Unsloth. В VS Code ставите расширение Roo Code и цепляетесь к Local Inference Server. В LM Studio ставим галочку «GPU Offload» — и самые тяжелые слои улетают в видеопамятушку вашей обычной RTX 3060 или 4070 (12 ГБ VRAM хватит за глаза), а остальной граф берет на себя системная ОЗУ.

Объем ОЗУ (RAM) Что можно запустить (Локально) Уровень комфорта инференса 16 ГБ Qwen3-Coder 30B (3-bit сжатие) Жёсткий минимум. Маленькое окно контекста, система работает на пределе. 32 ГБ Qwen3-Coder-Next (4-bit MoE) Золотая середина. Позволяет анализировать небольшие репозитории без зависаний ОС. 64 ГБ Огромные модели (80B+) + Max Context Рекомендуемый идеал. Аппаратная поддержка 262 144 токенов — можно «скормить» весь код крупного проекта разом.

Честный взгляд: подводные камни автономных агентов

Звучит как магия, но настройка ии агентов требует холодного рассудка. Вот неочевидные грабли, на которые наступают разработчики:

  • Иллюзия безлимитного контекста: Да, Qwen3 аппаратно «видит» 256k токенов (тысячи страниц кода). Но если вы набьете CLAUDE.md мусором на 1000 строк, внимание модели рассеется (эффект Lost in the Middle). Держите файл строгим и сухим.
  • Свобода в терминале = смерть проекту: Никогда не отключайте опцию «Require confirmation for terminal commands» в настройках Roo Code / Cline. ИИ может решить проблему с зависимостями, просто удалив половину корневых директорий.
  • Swap-шторм: Если попытаться впихнуть 4-битную модель 80B в 16 ГБ ОЗУ, система начнет сбрасывать данные на SSD (файл подкачки). Скорость генерации упадет до 0.5 токена в секунду, а накопитель начнет стремительно деградировать.

Локальные ИИ-агенты в 2026 году — это де-факто рабочий стандарт. Связка из жесткого CLAUDE.md, квантованной MoE-модели и базового домашнего железа с 32 ГБ ОЗУ превращает ваш ПК в автономную студию, полностью защищенную от утечек корпоративного кода.

А чтобы быть в курсе гипер-локального ИИ и забирать рабочие инструменты — заходите в канал: Telegram-канал

Частые вопросы

Зачем нужен CLAUDE.md, если можно просто давать промпты в чат?

Файл работает как несгораемый фундамент. Без него при каждом перезапуске сессии агент будет заново «изобретать велосипед», использовать разные стили написания кода и ломать вашу архитектуру, игнорируя предыдущие договоренности.

В чем секрет модели Qwen3-Coder-Next?

В архитектуре Mixture-of-Experts. Из общих 80 миллиардов параметров при вычислении одного слова активируется всего 3 миллиарда «экспертов». Это дает колоссальный интеллект при очень скромных требованиях к железу.

Потянет ли мой домашний ПК с RTX 3060 локального агента?

Да. Видеокарты на 12 ГБ VRAM вполне достаточно для инференса благодаря функции GPU Offload. Главное требование сместилось к системной ОЗУ — у вас должно быть строго от 16 ГБ (а в идеале 32 ГБ).

Что такое Auto-Memory у ИИ-агентов?

Это система динамической памяти (обычно файл MEMORY.md). Если агент натыкается на баг в вашем коде и успешно его решает, он сам записывает алгоритм решения в этот файл, чтобы в будущих сессиях не повторять ошибку.

Безопасно ли давать ИИ доступ к терминалу?

Только через прослойки вроде Roo Code или Cline, и только с включенным подтверждением (Approve/Reject) для каждой выполняемой команды. Полностью слепое выполнение bash-скриптов агентом — прямой путь к потере данных.