Глоссарий по RAG-технологиям

Область Retrieval-Augmented Generation (RAG) стремительно развивается, но терминология до сих пор остаётся разрозненной. В этом глоссарии собраны ключевые понятия, упорядоченные по значимости, с чёткими определениями, которые помогут читателям ориентироваться в материалах книги. Каждый термин описан по принципу «род → видовое отличие», чтобы избежать двусмысленностей.

Основные термины

RAG (Retrieval-Augmented Generation) — архитектура искусственного интеллекта, объединяющая поиск релевантной информации из внешних источников с генерацией ответов на её основе.
Основа современных интеллектуальных систем, где точность зависит от симбиоза поиска и генерации.
Чанкинг (Chunking) — процесс разбиения текстовых, аудио- или видеоданных на логические фрагменты для последующего векторного поиска.
Ключевой этап подготовки данных: от качества чанкинга зависит релевантность найденной информации.
Векторная база данных (Vector Database) — специализированное хранилище, работающее с векторными представлениями данных для семантического поиска.
Позволяет находить информацию по смыслу, а не по точному совпадению слов.
Эмбеддинг (Embedding) — векторное представление данных в виде числового массива, кодирующее семантические свойства объекта.
Основа семантического поиска: позволяет сравнивать смысловую близость текстов, изображений или аудио через математические операции.
Ретривер (Retriever) — алгоритм или модель, отвечающие за поиск релевантных данных в RAG-системе.
Может быть лексическим (BM25), семантическим (DPR) или гибридным (SPLADE).
Галлюцинация (Hallucination) — ошибка генеративной модели, при которой ответ содержит вымышленные факты, не подтверждённые источниками.
Главный риск RAG-систем, особенно в медицине и юриспруденции.

Методы и подходы

Семантический чанкинг (Semantic Chunking) — метод разделения текста на фрагменты по смысловым границам с использованием NLP-моделей.
Применяется для сохранения контекста, например, в научных работах.
Скользящее окно (Sliding Window) — техника чанкинга, при которой текст делится на перекрывающиеся блоки для сохранения связности.
Используется в обработке длинных документов, таких как транскрипты подкастов.
Иерархический чанкинг — метод разделения документов на вложенные уровни (например, главы → разделы → абзацы) для сохранения многоуровневого контекста.
Используется в аналитических системах, где запросы требуют работы с деталями и общими концепциями одновременно.
Лексический поиск — метод поиска информации, основанный на точном совпадении ключевых слов или фраз в запросе и документах.
Использует алгоритмы вроде BM25; эффективен для структурированных данных, но не учитывает семантику.
Гибридный поиск (Hybrid Search) — комбинация векторного и лексического поиска для повышения точности и покрытия.
Пример: одновременное использование HNSW и Elasticsearch.
Мультимодальный поиск — поиск информации по разным типам данных (текст, изображения, аудио) в едином пространстве эмбеддингов.
Используется в системах вроде Weaviate для комплексного анализа контента.
CoT (Chain-of-Thought) — техника промпт-инжиниринга, побуждающая языковую модель решать сложные задачи через пошаговое рассуждение с генерацией промежуточных логических шагов. Имитирует человеческий мыслительный процесс, значительно повышая точность модели в задачах, требующих многоэтапного анализа — от математических вычислений до принятия решений.
Би-энкодер — модель, создающая отдельные векторные представления для запроса и документа, которые затем сравниваются математически.
Основа семантического поиска: быстрее кросс-энкодеров, но менее точен для сложных взаимодействий.
Кросс-энкодер — нейросетевая модель, оценивающая релевантность пар «запрос-документ» через их совместную обработку.
Повышает точность гибридного поиска, но требует больше вычислительных ресурсов, чем би-энкодеры.
Функциональный вызов (Function Calling) — механизм, позволяющий языковым моделям взаимодействовать с внешними API или алгоритмами для выполнения задач.
Ключевой компонент для Tree-of-Thoughts и Graph-of-Thoughts.
Файн-тонинг (Fine-Tuning) — дообучение предварительно обученной модели на узкоспециализированных данных.
Позволяет адаптировать модель под корпоративный стиль или доменные требования.
Суммаризация (Summarization) — сжатие текста или диалога в краткий конспект для экономии контекстного окна модели.
Например, генерация саммари после 10 сообщений в чате.
Контекстное окно — ограничение на количество токенов, которое языковая модель может обработать за один запрос, включая входные данные и ответ.
Критично для RAG-систем: определяет, сколько информации из найденных чанков можно передать модели.

Инструменты и технологии

LangChain — фреймворк для создания цепочек действий с интеграцией поиска, генерации и внешних API.
*Поддерживает 50+ векторных баз и используется для сложных агентных сценариев.*
Milvus — open-source векторная база данных, оптимизированная для работы с миллиардами векторов.
Выбор корпораций для масштабных проектов с полным контролем над инфраструктурой.
Faiss — библиотека для эффективного поиска ближайших соседей в векторных пространствах.
Часто используется как движок внутри кастомных систем.
HNSW (Hierarchical Navigable Small World) — алгоритм для быстрого приближённого поиска в векторных базах данных, использующий иерархические графы.
Оптимален для баланса скорости и точности: применяется в Elasticsearch и других промышленных решениях.
RAGAS — фреймворк для оценки качества RAG-систем через метрики верности, релевантности и полезности ответов.
Автоматизирует проверку с привлечением LLM-судьи.
Пайплайн обработки данных — последовательность этапов подготовки данных для RAG: от чанкинга до индексирования в векторной БД.
Включает очистку, векторизацию и оптимизацию для поиска.
Квантование моделей — оптимизация нейросетей путём сокращения точности числовых представлений весов.
Снижает требования к памяти и ускоряет вывод, но может ухудшить качество.

Архитектурные паттерны

Классический RAG — простейшая архитектура: поиск → вставка в промит → генерация.
Подходит для MVP, но уязвима к ошибкам ретривера.
Агентно-ориентированный RAG — многоэтапная система с валидацией, уточнением запросов и перепроверкой источников.
Используется в критически важных областях, например, в медицинской диагностике.
Автономный RAG — самообучающаяся система, которая адаптирует параметры чанкинга и индексы на основе обратной связи.
Пример: экспериментальные решения вроде Self-RAG от UCLA.
Адаптивный RAG (Adaptive RAG) — архитектура, где система динамически инициирует дополнительные поисковые запросы при обнаружении пробелов в данных.
Решает проблему неполноты контекста, но увеличивает задержку ответа.
Self-RAG — архитектура автономного RAG с автоматической оценкой качества ответов и адаптацией параметров.
Пример: система, перестраивающая индекс при падении метрик RAGAS.
Графовая память — метод организации данных в виде узлов (сущности) и рёбер (связи между ними).
Позволяет ИИ-агентам строить ассоциативные цепочки, например, «Python → используется для → ML».
АГ-память (Ассоциативно-гетерархическая) — расширение графовой памяти, где связи могут включать подграфы или самореферентные структуры.
Используется для динамического перестроения иерархий данных.

Метрики качества

Recall@K — доля запросов, для которых в топ-K результатов поиска есть хотя бы один релевантный документ.
Критичен для предотвращения потери ключевых данных.
Precision@K — доля релевантных документов среди топ-K результатов поиска.
Низкое значение увеличивает риск зашумления контекста.
Faithfulness — метрика, оценивающая соответствие ответа предоставленным источникам.
Измеряется через LLM-проверки или сравнение эмбеддингов.
Groundedness — степень соответствия генерируемого языковой моделью ответа предоставленным источникам данных без добавления выдуманной информации. Ключевая метрика качества RAG-систем, измеряющая способность модели строго придерживаться фактов из контекста вместо опоры на параметрические знания из обучающих данных.
NDCG (Normalized Discounted Cumulative Gain) — метрика, оценивающая качество поиска с учётом релевантности и позиции документов в результатах.
Учитывает, что документы выше в списке более важны; требует экспертной разметки релевантности.
MRR (Mean Reciprocal Rank) — средняя величина обратного ранга первого релевантного документа в результатах поиска.
Показывает, насколько система умеет выдвигать правильные ответы в топ выдачи.

Экзотика и будущее

Tree-of-Thoughts (ToT) — метод планирования действий через генерацию и оценку нескольких «мысленных веток».
Позволяет находить неочевидные решения, но требует продвинутого Function Calling.
Graph-of-Thoughts (GoT) — метод планирования действий через создание динамических связей между идеями в графовой структуре.
Развитие Tree-of-Thoughts: позволяет модели параллельно развивать несколько концепций.
Guardrails — механизмы ограничения генерации для предотвращения токсичных, опасных или ложных ответов.
Включают фильтрацию источников, семантические ограничители и постобработку.
Нейропоиск (Neurosearch) — поисковая система, которая анализирует, синтезирует и структурирует информацию из множества источников.
Следующий этап эволюции RAG, стирающий грань между поиском и творчеством.
Deep Research — продвинутая RAG-система, проводящая многоэтапный анализ данных с автономным планированием и синтезом структурированных выводов.
Пример: генерация аналитических отчётов с прогнозами на основе патентов и научных статей.

Этот глоссарий — первая попытка упорядочить терминологию RAG-экосистемы. Возможно, это будет основа для выпуска национального стандарта по этой теме. Но по мере развития технологии он будет дополняться, но уже сегодня служит надёжным компасом в мире интеллектуальных систем.