ИИ
May 25

Глоссарий по RAG-технологиям

Область Retrieval-Augmented Generation (RAG) стремительно развивается, но терминология до сих пор остаётся разрозненной. В этом глоссарии собраны ключевые понятия, упорядоченные по значимости, с чёткими определениями, которые помогут читателям ориентироваться в материалах книги. Каждый термин описан по принципу «род → видовое отличие», чтобы избежать двусмысленностей.


Основные термины

  1. RAG (Retrieval-Augmented Generation) — архитектура искусственного интеллекта, объединяющая поиск релевантной информации из внешних источников с генерацией ответов на её основе.
    Основа современных интеллектуальных систем, где точность зависит от симбиоза поиска и генерации.
  2. Чанкинг (Chunking) — процесс разбиения текстовых, аудио- или видеоданных на логические фрагменты для последующего векторного поиска.
    Ключевой этап подготовки данных: от качества чанкинга зависит релевантность найденной информации.
  3. Векторная база данных (Vector Database) — специализированное хранилище, работающее с векторными представлениями данных для семантического поиска.
    Позволяет находить информацию по смыслу, а не по точному совпадению слов.
  4. Эмбеддинг (Embedding) — векторное представление данных в виде числового массива, кодирующее семантические свойства объекта.
    Основа семантического поиска: позволяет сравнивать смысловую близость текстов, изображений или аудио через математические операции.
  5. Ретривер (Retriever) — алгоритм или модель, отвечающие за поиск релевантных данных в RAG-системе.
    Может быть лексическим (BM25), семантическим (DPR) или гибридным (SPLADE).
  6. Галлюцинация (Hallucination) — ошибка генеративной модели, при которой ответ содержит вымышленные факты, не подтверждённые источниками.
    Главный риск RAG-систем, особенно в медицине и юриспруденции.

Методы и подходы

  1. Семантический чанкинг (Semantic Chunking) — метод разделения текста на фрагменты по смысловым границам с использованием NLP-моделей.
    Применяется для сохранения контекста, например, в научных работах.
  2. Скользящее окно (Sliding Window) — техника чанкинга, при которой текст делится на перекрывающиеся блоки для сохранения связности.
    Используется в обработке длинных документов, таких как транскрипты подкастов.
  3. Иерархический чанкинг — метод разделения документов на вложенные уровни (например, главы → разделы → абзацы) для сохранения многоуровневого контекста.
    Используется в аналитических системах, где запросы требуют работы с деталями и общими концепциями одновременно.
  4. Лексический поиск — метод поиска информации, основанный на точном совпадении ключевых слов или фраз в запросе и документах.
    Использует алгоритмы вроде BM25; эффективен для структурированных данных, но не учитывает семантику.
  5. Гибридный поиск (Hybrid Search) — комбинация векторного и лексического поиска для повышения точности и покрытия.
    Пример: одновременное использование HNSW и Elasticsearch.
  6. Мультимодальный поиск — поиск информации по разным типам данных (текст, изображения, аудио) в едином пространстве эмбеддингов.
    Используется в системах вроде Weaviate для комплексного анализа контента.
  7. CoT (Chain-of-Thought) — техника промпт-инжиниринга, побуждающая языковую модель решать сложные задачи через пошаговое рассуждение с генерацией промежуточных логических шагов. Имитирует человеческий мыслительный процесс, значительно повышая точность модели в задачах, требующих многоэтапного анализа — от математических вычислений до принятия решений.
  8. Би-энкодер — модель, создающая отдельные векторные представления для запроса и документа, которые затем сравниваются математически.
    Основа семантического поиска: быстрее кросс-энкодеров, но менее точен для сложных взаимодействий.
  9. Кросс-энкодер — нейросетевая модель, оценивающая релевантность пар «запрос-документ» через их совместную обработку.
    Повышает точность гибридного поиска, но требует больше вычислительных ресурсов, чем би-энкодеры.
  10. Функциональный вызов (Function Calling) — механизм, позволяющий языковым моделям взаимодействовать с внешними API или алгоритмами для выполнения задач.
    Ключевой компонент для Tree-of-Thoughts и Graph-of-Thoughts.
  11. Файн-тонинг (Fine-Tuning) — дообучение предварительно обученной модели на узкоспециализированных данных.
    Позволяет адаптировать модель под корпоративный стиль или доменные требования.
  12. Суммаризация (Summarization) — сжатие текста или диалога в краткий конспект для экономии контекстного окна модели.
    Например, генерация саммари после 10 сообщений в чате.
  13. Контекстное окно — ограничение на количество токенов, которое языковая модель может обработать за один запрос, включая входные данные и ответ.
    Критично для RAG-систем: определяет, сколько информации из найденных чанков можно передать модели.

Инструменты и технологии

  1. LangChain — фреймворк для создания цепочек действий с интеграцией поиска, генерации и внешних API.
    *Поддерживает 50+ векторных баз и используется для сложных агентных сценариев.*
  2. Milvus — open-source векторная база данных, оптимизированная для работы с миллиардами векторов.
    Выбор корпораций для масштабных проектов с полным контролем над инфраструктурой.
  3. Faiss — библиотека для эффективного поиска ближайших соседей в векторных пространствах.
    Часто используется как движок внутри кастомных систем.
  4. HNSW (Hierarchical Navigable Small World) — алгоритм для быстрого приближённого поиска в векторных базах данных, использующий иерархические графы.
    Оптимален для баланса скорости и точности: применяется в Elasticsearch и других промышленных решениях.
  5. RAGAS — фреймворк для оценки качества RAG-систем через метрики верности, релевантности и полезности ответов.
    Автоматизирует проверку с привлечением LLM-судьи.
  6. Пайплайн обработки данных — последовательность этапов подготовки данных для RAG: от чанкинга до индексирования в векторной БД.
    Включает очистку, векторизацию и оптимизацию для поиска.
  7. Квантование моделей — оптимизация нейросетей путём сокращения точности числовых представлений весов.
    Снижает требования к памяти и ускоряет вывод, но может ухудшить качество.

Архитектурные паттерны

  1. Классический RAG — простейшая архитектура: поиск → вставка в промит → генерация.
    Подходит для MVP, но уязвима к ошибкам ретривера.
  2. Агентно-ориентированный RAG — многоэтапная система с валидацией, уточнением запросов и перепроверкой источников.
    Используется в критически важных областях, например, в медицинской диагностике.
  3. Автономный RAG — самообучающаяся система, которая адаптирует параметры чанкинга и индексы на основе обратной связи.
    Пример: экспериментальные решения вроде Self-RAG от UCLA.
  4. Адаптивный RAG (Adaptive RAG) — архитектура, где система динамически инициирует дополнительные поисковые запросы при обнаружении пробелов в данных.
    Решает проблему неполноты контекста, но увеличивает задержку ответа.
  5. Self-RAG — архитектура автономного RAG с автоматической оценкой качества ответов и адаптацией параметров.
    Пример: система, перестраивающая индекс при падении метрик RAGAS.
  6. Графовая память — метод организации данных в виде узлов (сущности) и рёбер (связи между ними).
    Позволяет ИИ-агентам строить ассоциативные цепочки, например, «Python → используется для → ML».
  7. АГ-память (Ассоциативно-гетерархическая) — расширение графовой памяти, где связи могут включать подграфы или самореферентные структуры.
    Используется для динамического перестроения иерархий данных.

Метрики качества

  1. Recall@K — доля запросов, для которых в топ-K результатов поиска есть хотя бы один релевантный документ.
    Критичен для предотвращения потери ключевых данных.
  2. Precision@K — доля релевантных документов среди топ-K результатов поиска.
    Низкое значение увеличивает риск зашумления контекста.
  3. Faithfulness — метрика, оценивающая соответствие ответа предоставленным источникам.
    Измеряется через LLM-проверки или сравнение эмбеддингов.
  4. Groundedness — степень соответствия генерируемого языковой моделью ответа предоставленным источникам данных без добавления выдуманной информации. Ключевая метрика качества RAG-систем, измеряющая способность модели строго придерживаться фактов из контекста вместо опоры на параметрические знания из обучающих данных.
  5. NDCG (Normalized Discounted Cumulative Gain) — метрика, оценивающая качество поиска с учётом релевантности и позиции документов в результатах.
    Учитывает, что документы выше в списке более важны; требует экспертной разметки релевантности.
  6. MRR (Mean Reciprocal Rank) — средняя величина обратного ранга первого релевантного документа в результатах поиска.
    Показывает, насколько система умеет выдвигать правильные ответы в топ выдачи.

Экзотика и будущее

  1. Tree-of-Thoughts (ToT) — метод планирования действий через генерацию и оценку нескольких «мысленных веток».
    Позволяет находить неочевидные решения, но требует продвинутого Function Calling.
  2. Graph-of-Thoughts (GoT) — метод планирования действий через создание динамических связей между идеями в графовой структуре.
    Развитие Tree-of-Thoughts: позволяет модели параллельно развивать несколько концепций.
  3. Guardrails — механизмы ограничения генерации для предотвращения токсичных, опасных или ложных ответов.
    Включают фильтрацию источников, семантические ограничители и постобработку.
  4. Нейропоиск (Neurosearch) — поисковая система, которая анализирует, синтезирует и структурирует информацию из множества источников.
    Следующий этап эволюции RAG, стирающий грань между поиском и творчеством.
  5. Deep Research — продвинутая RAG-система, проводящая многоэтапный анализ данных с автономным планированием и синтезом структурированных выводов.
    Пример: генерация аналитических отчётов с прогнозами на основе патентов и научных статей.

Этот глоссарий — первая попытка упорядочить терминологию RAG-экосистемы. Возможно, это будет основа для выпуска национального стандарта по этой теме. Но по мере развития технологии он будет дополняться, но уже сегодня служит надёжным компасом в мире интеллектуальных систем.