June 10

LamaIndex + n8n: автоматическая очистка и парсинг документов для RAG-систем


🧩 LamaIndex + n8n: автоматическая очистка и парсинг документов для RAG-систем

Этот сценарий экономит десятки часов ручной работы при подготовке документов для RAG. Вот как он устроен 👇

Если ты еще не знаком с RAG, то можешь прочесть предыдущие статьи:

https://teletype.in/@moneybeast/5_mmUgwfwgn - Зачем нужен Agentic RAG?

https://teletype.in/@moneybeast/Dm6xpsi0I-n - Категориальный роутинг в RAG: Пошаговый гайд

https://teletype.in/@moneybeast/XmeBMO9hrbN - Контекстуализация чанков: как улучшить поиск в векторной базе

https://teletype.in/@moneybeast/8BcRICcRRvY - Когда RAG — это лишнее: простой чат-бот без векторной базы

https://teletype.in/@moneybeast/Hqn6bl9sEx_ - LLM-роутинг для RAG-систем: как навести порядок в хаосе документов

Воркфлоу для n8n можно скачать в нашем Telegram-канале - https://t.me/neurofolder

🧠 Что решает этот подход

Если вы строите RAG-систему и работаете с неструктурированными документами — PDF, скриншотами, сканами, — нужно их привести в порядок:

  • очистить от мусора,
  • структурировать данные (в т.ч. из изображений),
  • подготовить к индексации.

🧹 LamaIndex (в облачной версии) + n8n решают это в один клик.


🛠️ Что такое LamaIndex

https://www.llamaindex.ai/ - Изначально это был фреймворк для интеграции LLM. Сейчас — мощный инструмент для:

  • извлечения данных из документов,
  • создания баз знаний (Knowledge Base),
  • автопарсинга таблиц и изображений,
  • подключения LLM для предобработки.

📦 Работает с OCR и LLM, умеет превращать скрины с таблицами в реальные табличные данные.

💡 Подходит даже в бесплатной версии.


⚙️ Общая схема сценария в n8n

graph TD
A[Загрузка документа] --> B[Отправка на парсинг в LamaIndex]
B --> C[Проверка статуса]
C -->|SUCCESS| D[Получение результата в Markdown]

🔌 Интеграция с LamaIndex через HTTP-запрос

Для начала зарегестрируйтесь на и создайте свой API ключ в разделе API Key.

1. Загрузка документа

  • Используется HTTP Request с методом POST
  • Тип тела: FormData
  • Передаем:
    • data: бинарный файл
    • Параметры очистки (все true):
      • adaptive_long_table = true — адаптивная обработка больших таблиц
      • automod_trigger_on_image_in_page = true — запуск OCR при наличии изображения
      • automod_trigger_on_table = true — запуск автообработки при наличии таблицы

🧩 Подключение к LamaIndex через URL из их документации (раздел Document Parsing).


2. Опрос статуса

  • GET-запрос с JOB_ID
  • Проверяем:
    • SUCCESS → идем за результатом
    • PARTIAL_SUCCESS → забираем что есть
    • PENDING → ждем 5 сек и повторяем
    • FAILED / CANCELLED → fallback

3. Получение результата

  • GET /result/markdown
  • LamaIndex возвращает разметку в Markdown — удобно для последующей работы с LLM.


⚡ Почему это удобно

  • ✅ Один проход — и у вас чистый, структурированный текст + таблицы из изображений
  • ✅ Можно настроить извлечение имен, локаций, дат, чисел через LLM
  • ✅ Легко интегрировать в любой n8n-сценарий
  • ✅ Подходит для PDF, скриншотов, сканов и других нечитаемых форматов

💰 Монетизация

  • Делайте data-prep как услугу: предложите клиентам автоматическую очистку документов для их ИИ-систем.
  • Подготовка документов под финтех-аналитику, HR-ботов, бизнес-ассистентов — востребована и маржинальна.