ИИ
May 25
Глоссарий по RAG-технологиям
Область Retrieval-Augmented Generation (RAG) стремительно развивается, но терминология до сих пор остаётся разрозненной. В этом глоссарии собраны ключевые понятия, упорядоченные по значимости, с чёткими определениями, которые помогут читателям ориентироваться в материалах книги. Каждый термин описан по принципу «род → видовое отличие», чтобы избежать двусмысленностей.
Основные термины
- RAG (Retrieval-Augmented Generation) — архитектура искусственного интеллекта, объединяющая поиск релевантной информации из внешних источников с генерацией ответов на её основе.
Основа современных интеллектуальных систем, где точность зависит от симбиоза поиска и генерации. - Чанкинг (Chunking) — процесс разбиения текстовых, аудио- или видеоданных на логические фрагменты для последующего векторного поиска.
Ключевой этап подготовки данных: от качества чанкинга зависит релевантность найденной информации. - Векторная база данных (Vector Database) — специализированное хранилище, работающее с векторными представлениями данных для семантического поиска.
Позволяет находить информацию по смыслу, а не по точному совпадению слов. - Эмбеддинг (Embedding) — векторное представление данных в виде числового массива, кодирующее семантические свойства объекта.
Основа семантического поиска: позволяет сравнивать смысловую близость текстов, изображений или аудио через математические операции. - Ретривер (Retriever) — алгоритм или модель, отвечающие за поиск релевантных данных в RAG-системе.
Может быть лексическим (BM25), семантическим (DPR) или гибридным (SPLADE). - Галлюцинация (Hallucination) — ошибка генеративной модели, при которой ответ содержит вымышленные факты, не подтверждённые источниками.
Главный риск RAG-систем, особенно в медицине и юриспруденции.
Методы и подходы
- Семантический чанкинг (Semantic Chunking) — метод разделения текста на фрагменты по смысловым границам с использованием NLP-моделей.
Применяется для сохранения контекста, например, в научных работах. - Скользящее окно (Sliding Window) — техника чанкинга, при которой текст делится на перекрывающиеся блоки для сохранения связности.
Используется в обработке длинных документов, таких как транскрипты подкастов. - Иерархический чанкинг — метод разделения документов на вложенные уровни (например, главы → разделы → абзацы) для сохранения многоуровневого контекста.
Используется в аналитических системах, где запросы требуют работы с деталями и общими концепциями одновременно. - Лексический поиск — метод поиска информации, основанный на точном совпадении ключевых слов или фраз в запросе и документах.
Использует алгоритмы вроде BM25; эффективен для структурированных данных, но не учитывает семантику. - Гибридный поиск (Hybrid Search) — комбинация векторного и лексического поиска для повышения точности и покрытия.
Пример: одновременное использование HNSW и Elasticsearch. - Мультимодальный поиск — поиск информации по разным типам данных (текст, изображения, аудио) в едином пространстве эмбеддингов.
Используется в системах вроде Weaviate для комплексного анализа контента. - CoT (Chain-of-Thought) — техника промпт-инжиниринга, побуждающая языковую модель решать сложные задачи через пошаговое рассуждение с генерацией промежуточных логических шагов. Имитирует человеческий мыслительный процесс, значительно повышая точность модели в задачах, требующих многоэтапного анализа — от математических вычислений до принятия решений.
- Би-энкодер — модель, создающая отдельные векторные представления для запроса и документа, которые затем сравниваются математически.
Основа семантического поиска: быстрее кросс-энкодеров, но менее точен для сложных взаимодействий. - Кросс-энкодер — нейросетевая модель, оценивающая релевантность пар «запрос-документ» через их совместную обработку.
Повышает точность гибридного поиска, но требует больше вычислительных ресурсов, чем би-энкодеры. - Функциональный вызов (Function Calling) — механизм, позволяющий языковым моделям взаимодействовать с внешними API или алгоритмами для выполнения задач.
Ключевой компонент для Tree-of-Thoughts и Graph-of-Thoughts. - Файн-тонинг (Fine-Tuning) — дообучение предварительно обученной модели на узкоспециализированных данных.
Позволяет адаптировать модель под корпоративный стиль или доменные требования. - Суммаризация (Summarization) — сжатие текста или диалога в краткий конспект для экономии контекстного окна модели.
Например, генерация саммари после 10 сообщений в чате. - Контекстное окно — ограничение на количество токенов, которое языковая модель может обработать за один запрос, включая входные данные и ответ.
Критично для RAG-систем: определяет, сколько информации из найденных чанков можно передать модели.
Инструменты и технологии
- LangChain — фреймворк для создания цепочек действий с интеграцией поиска, генерации и внешних API.
*Поддерживает 50+ векторных баз и используется для сложных агентных сценариев.* - Milvus — open-source векторная база данных, оптимизированная для работы с миллиардами векторов.
Выбор корпораций для масштабных проектов с полным контролем над инфраструктурой. - Faiss — библиотека для эффективного поиска ближайших соседей в векторных пространствах.
Часто используется как движок внутри кастомных систем. - HNSW (Hierarchical Navigable Small World) — алгоритм для быстрого приближённого поиска в векторных базах данных, использующий иерархические графы.
Оптимален для баланса скорости и точности: применяется в Elasticsearch и других промышленных решениях. - RAGAS — фреймворк для оценки качества RAG-систем через метрики верности, релевантности и полезности ответов.
Автоматизирует проверку с привлечением LLM-судьи. - Пайплайн обработки данных — последовательность этапов подготовки данных для RAG: от чанкинга до индексирования в векторной БД.
Включает очистку, векторизацию и оптимизацию для поиска. - Квантование моделей — оптимизация нейросетей путём сокращения точности числовых представлений весов.
Снижает требования к памяти и ускоряет вывод, но может ухудшить качество.
Архитектурные паттерны
- Классический RAG — простейшая архитектура: поиск → вставка в промит → генерация.
Подходит для MVP, но уязвима к ошибкам ретривера. - Агентно-ориентированный RAG — многоэтапная система с валидацией, уточнением запросов и перепроверкой источников.
Используется в критически важных областях, например, в медицинской диагностике. - Автономный RAG — самообучающаяся система, которая адаптирует параметры чанкинга и индексы на основе обратной связи.
Пример: экспериментальные решения вроде Self-RAG от UCLA. - Адаптивный RAG (Adaptive RAG) — архитектура, где система динамически инициирует дополнительные поисковые запросы при обнаружении пробелов в данных.
Решает проблему неполноты контекста, но увеличивает задержку ответа. - Self-RAG — архитектура автономного RAG с автоматической оценкой качества ответов и адаптацией параметров.
Пример: система, перестраивающая индекс при падении метрик RAGAS. - Графовая память — метод организации данных в виде узлов (сущности) и рёбер (связи между ними).
Позволяет ИИ-агентам строить ассоциативные цепочки, например, «Python → используется для → ML». - АГ-память (Ассоциативно-гетерархическая) — расширение графовой памяти, где связи могут включать подграфы или самореферентные структуры.
Используется для динамического перестроения иерархий данных.
Метрики качества
- Recall@K — доля запросов, для которых в топ-K результатов поиска есть хотя бы один релевантный документ.
Критичен для предотвращения потери ключевых данных. - Precision@K — доля релевантных документов среди топ-K результатов поиска.
Низкое значение увеличивает риск зашумления контекста. - Faithfulness — метрика, оценивающая соответствие ответа предоставленным источникам.
Измеряется через LLM-проверки или сравнение эмбеддингов. - Groundedness — степень соответствия генерируемого языковой моделью ответа предоставленным источникам данных без добавления выдуманной информации. Ключевая метрика качества RAG-систем, измеряющая способность модели строго придерживаться фактов из контекста вместо опоры на параметрические знания из обучающих данных.
- NDCG (Normalized Discounted Cumulative Gain) — метрика, оценивающая качество поиска с учётом релевантности и позиции документов в результатах.
Учитывает, что документы выше в списке более важны; требует экспертной разметки релевантности. - MRR (Mean Reciprocal Rank) — средняя величина обратного ранга первого релевантного документа в результатах поиска.
Показывает, насколько система умеет выдвигать правильные ответы в топ выдачи.
Экзотика и будущее
- Tree-of-Thoughts (ToT) — метод планирования действий через генерацию и оценку нескольких «мысленных веток».
Позволяет находить неочевидные решения, но требует продвинутого Function Calling. - Graph-of-Thoughts (GoT) — метод планирования действий через создание динамических связей между идеями в графовой структуре.
Развитие Tree-of-Thoughts: позволяет модели параллельно развивать несколько концепций. - Guardrails — механизмы ограничения генерации для предотвращения токсичных, опасных или ложных ответов.
Включают фильтрацию источников, семантические ограничители и постобработку. - Нейропоиск (Neurosearch) — поисковая система, которая анализирует, синтезирует и структурирует информацию из множества источников.
Следующий этап эволюции RAG, стирающий грань между поиском и творчеством. - Deep Research — продвинутая RAG-система, проводящая многоэтапный анализ данных с автономным планированием и синтезом структурированных выводов.
Пример: генерация аналитических отчётов с прогнозами на основе патентов и научных статей.
Этот глоссарий — первая попытка упорядочить терминологию RAG-экосистемы. Возможно, это будет основа для выпуска национального стандарта по этой теме. Но по мере развития технологии он будет дополняться, но уже сегодня служит надёжным компасом в мире интеллектуальных систем.