Перейти к основному содержанию

Documentation Index

Fetch the complete documentation index at: https://speshu.ai/docs/llms.txt

Use this file to discover all available pages before exploring further.

RagFlow — open-source RAG engine для работы с документами. Он фокусируется на качественном разборе файлов, построении knowledge base и ответах с цитатами. О RagFlow говорят потому, что RAG по PDF и таблицам часто ломается не на модели, а на подготовке данных. Документы содержат таблицы, заголовки, колонки, сканы, сложную верстку и длинные вложенные фрагменты. RagFlow пытается закрыть именно эту боль. В статье разберём, как он работает, где полезен и как подключить модели через SpeShu.AI.

Что такое ragflow

RagFlow — это self-hosted платформа для Retrieval-Augmented Generation. Она помогает загрузить документы, распарсить их, построить базу знаний, задать вопрос и получить ответ с опорой на источники. Инструмент нужен компаниям, которые работают с PDF, договорами, инструкциями, регламентами, таблицами, презентациями и техническими документами. RagFlow ближе к готовому продукту, чем к библиотеке. Его обычно запускают как сервис, настраивают knowledge base и подключают пользователей через UI или API.

Как работает ragflow

Типовой пайплайн:
  • загрузка документа;
  • parsing и extraction структуры;
  • chunking;
  • embeddings;
  • indexing;
  • retrieval;
  • генерация ответа с цитатами.
Важная часть — обработка документов до embeddings. Если чанки плохие, модель будет отвечать неточно даже при сильном LLM. Поэтому RagFlow делает акцент на document understanding. Для модели можно использовать OpenAI-compatible провайдера, указав endpoint SpeShu.AI и ключ.

Что умеет ragflow

  • создавать knowledge base по документам;
  • работать с PDF, таблицами и текстовыми файлами;
  • давать ответы с цитатами;
  • подключать LLM и embedding-модели;
  • запускаться self-hosted;
  • предоставлять UI для настройки;
  • помогать строить корпоративный Q&A.
Мини-кейсы: чат по договорам, поиск по инструкциям, ассистент юриста, технический support bot, анализ тендерной документации.

ragflow на практике

Практический workflow для базы знаний:
  1. Разверните RagFlow по официальной self-hosted инструкции.
  2. Создайте knowledge base.
  3. Загрузите PDF, таблицы или документы.
  4. Проверьте, как RagFlow нарезал документ на chunks.
  5. Добавьте OpenAI-compatible LLM provider:
ПолеЗначение
API Key<SPESHU_AI_API_KEY>
Base URLhttps://speshu.ai/api/v1
Chat modelopenai/gpt-5.5
Embedding modeltext-embedding-3-large
  1. Задайте тестовые вопросы, на которые точно есть ответы в документах.
  2. Проверьте не только текст ответа, но и citations.
Хороший тестовый набор должен включать простые факты, вопросы по таблицам и вопросы, где ответа нет. Последний тип важен: RAG-система должна уметь честно говорить, что данных недостаточно.

Преимущества и недостатки ragflow

Плюсы:
  • фокус на документах и citations;
  • self-hosted подход;
  • удобен для PDF-heavy задач;
  • подходит для корпоративных knowledge base.
Минусы:
  • тяжелее простой библиотеки;
  • требует настройки инфраструктуры;
  • качество зависит от parsing и структуры документов.

ragflow vs альтернативы

RagFlow vs Dify: Dify шире как платформа AI-приложений и workflow. RagFlow сильнее сфокусирован на RAG по документам. RagFlow vs LlamaIndex: LlamaIndex — кодовый framework. RagFlow — более готовый сервис с UI. RagFlow vs Flowise: Flowise визуально собирает flow. RagFlow больше про ingestion, parsing и knowledge base с цитатами.

Кому подойдёт ragflow

RagFlow подойдёт компаниям с большим количеством документов, юристам, поддержке, техническим командам, аналитикам и self-hosted пользователям. Если у вас много PDF и важны ссылки на источники, RagFlow стоит тестировать раньше универсальных no-code конструкторов.

Как попробовать ragflow через SpeShu.AI

SpeShu.AI закрывает доступ к LLM и embeddings:
  • не нужен VPN;
  • не нужна зарубежная карта;
  • доступны разные модели;
  • один интерфейс для chat и embeddings;
  • быстрый старт через speshu.ai/profile.
Для RAG используйте text-embedding-3-large и chat-модель из каталога.

Заключение

RagFlow полезен, если ваша главная боль — документы, а не только LLM. Главный инсайт: RAG начинается с качественного parsing и chunking, а не с выбора самой дорогой модели. Перед запуском в продакшен проверьте citations, ответы на “нет данных” и обновление индекса при изменении документов.

Подключить API

Запустите интеграцию через SpeShu.AI: единый доступ к AI-моделям, без VPN и зарубежной карты