ray Agentic RAG — 06 Apr 2026

RAG已经不够用了，Agentic RAG才是下一代检索的解法

上周帮一个客户做知识库问答系统，遇到了一个典型问题。

他们的文档有 10 万多份，用户问「上个季度的销售额是多少」，RAG 系统检索出来 20 多篇相关文档，但模型还是答错了——因为它没搞明白「上个季度」指的是 Q4 还是 Q1，也没区分「销售额」和「回款额」的区别。

这就是传统 RAG 的瓶颈：它只管「找到相关内容」，不管「怎么理解问题、怎么规划检索策略、怎么验证答案」。

Agentic RAG 想解决的，就是这个痛点。

传统 RAG 的问题在哪？

简单复习一下，RAG（Retrieval-Augmented Generation）的基本流程是：用户提问 → 检索相关文档 → 把文档塞进 prompt → 模型生成答案。

这个流程的问题在于「一刀切」。不管问题是简单还是复杂，检索策略都一样：向量化查询、相似度排序、取 top-k。

但现实中的问题千差万别。问「公司成立时间」和问「对比 A、B 两个方案在 Q3 的 ROI 差异」，显然需要不同的检索策略。前者一次检索就够了，后者可能需要多轮检索、交叉验证、甚至分解子问题。

传统 RAG 做不到这些，因为它没有「思考」能力。

Agentic RAG 的核心思想

Agentic RAG 的思路很简单：在检索流程中引入一个「智能体」（Agent），让它来决定「怎么检索、检索什么、什么时候停止」。

具体来说，Agent 可以做这几件事：

第一，查询分解。把复杂问题拆成多个子问题，分别检索。比如「A 和 B 方案哪个 ROI 更高」可以拆成「A 方案 Q3 ROI 是多少」和「B 方案 Q3 ROI 是多少」。

第二，动态检索。不是一次性检索完就完事，而是根据中间结果决定下一步检索什么。如果发现检索到的文档有矛盾，Agent 可以主动发起新的检索来验证。

第三，自我反思。生成答案后，Agent 可以检查「这个答案是不是回答了原问题」「有没有遗漏关键信息」「推理过程有没有漏洞」。

第四，工具调用。除了检索文档，Agent 还可以调用计算器、数据库、API 等外部工具。比如检索到「销售额 1000 万」，Agent 可以调用计算器算一下「环比增长多少」。

实际效果怎么样？

我最近在项目里试了一个开源的 Agentic RAG 框架，效果确实比传统 RAG 好一截。

同样的知识库，传统 RAG 的准确率大概在 65% 左右，Agentic RAG 能到 85% 以上。提升主要来自两方面：一是复杂问题的拆解能力，二是答案的自我验证。

当然，代价也是有的。延迟明显增加——传统 RAG 平均 2 秒出答案，Agentic RAG 可能要 8-10 秒。因为多了好几轮检索和推理。

还有一个隐性成本：调试难度。传统 RAG 出问题了，看检索结果对不对就行。Agentic RAG 出问题，可能是查询分解错了、可能是检索策略错了、也可能是反思逻辑错了——排查起来复杂得多。

什么时候用 Agentic RAG？

我的建议是：看场景。

如果你的知识库问答主要是简单事实查询（「公司地址在哪」「产品规格是什么」），传统 RAG 够用了，没必要为了那 5% 的提升增加 4 倍延迟。

但如果你的场景涉及复杂推理、多文档交叉验证、动态数据计算——比如金融分析、法律咨询、医疗诊断——Agentic RAG 的价值就很明显。

说白了，Agentic RAG 不是「更好版本的 RAG」，而是「解决不同问题的工具」。

一个思考

Agentic RAG 的兴起，其实反映了一个更大的趋势：AI 系统正在从「单次调用模型」向「多步骤智能体工作流」演进。

不只是 RAG，代码生成、数据分析、内容创作——所有这些场景，都在往「Agent + 工具 + 多轮迭代」的方向走。

这对开发者意味着什么？

意味着单纯调 prompt、调模型参数的时代正在过去。未来的核心竞争力，是设计「智能体工作流」的能力：怎么分解任务、怎么设计工具、怎么设置检查点、怎么处理异常。

这些能力，比「知道某个模型 API 怎么调用」值钱多了。

你觉得呢？在你的场景里，RAG 够用吗，还是已经在考虑 Agentic RAG 了？