RAG已经不够用了,Agentic RAG才是下一代检索的解法
上周帮一个客户做知识库问答系统,遇到了一个典型问题。
他们的文档有 10 万多份,用户问「上个季度的销售额是多少」,RAG 系统检索出来 20 多篇相关文档,但模型还是答错了——因为它没搞明白「上个季度」指的是 Q4 还是 Q1,也没区分「销售额」和「回款额」的区别。
这就是传统 RAG 的瓶颈:它只管「找到相关内容」,不管「怎么理解问题、怎么规划检索策略、怎么验证答案」。
Agentic RAG 想解决的,就是这个痛点。
传统 RAG 的问题在哪?
简单复习一下,RAG(Retrieval-Augmented Generation)的基本流程是:用户提问 → 检索相关文档 → 把文档塞进 prompt → 模型生成答案。
这个流程的问题在于「一刀切」。不管问题是简单还是复杂,检索策略都一样:向量化查询、相似度排序、取 top-k。
但现实中的问题千差万别。问「公司成立时间」和问「对比 A、B 两个方案在 Q3 的 ROI 差异」,显然需要不同的检索策略。前者一次检索就够了,后者可能需要多轮检索、交叉验证、甚至分解子问题。
传统 RAG 做不到这些,因为它没有「思考」能力。
Agentic RAG 的核心思想
Agentic RAG 的思路很简单:在检索流程中引入一个「智能体」(Agent),让它来决定「怎么检索、检索什么、什么时候停止」。
具体来说,Agent 可以做这几件事:
第一,查询分解。把复杂问题拆成多个子问题,分别检索。比如「A 和 B 方案哪个 ROI 更高」可以拆成「A 方案 Q3 ROI 是多少」和「B 方案 Q3 ROI 是多少」。
第二,动态检索。不是一次性检索完就完事,而是根据中间结果决定下一步检索什么。如果发现检索到的文档有矛盾,Agent 可以主动发起新的检索来验证。
第三,自我反思。生成答案后,Agent 可以检查「这个答案是不是回答了原问题」「有没有遗漏关键信息」「推理过程有没有漏洞」。
第四,工具调用。除了检索文档,Agent 还可以调用计算器、数据库、API 等外部工具。比如检索到「销售额 1000 万」,Agent 可以调用计算器算一下「环比增长多少」。
实际效果怎么样?
我最近在项目里试了一个开源的 Agentic RAG 框架,效果确实比传统 RAG 好一截。
同样的知识库,传统 RAG 的准确率大概在 65% 左右,Agentic RAG 能到 85% 以上。提升主要来自两方面:一是复杂问题的拆解能力,二是答案的自我验证。
当然,代价也是有的。延迟明显增加——传统 RAG 平均 2 秒出答案,Agentic RAG 可能要 8-10 秒。因为多了好几轮检索和推理。
还有一个隐性成本:调试难度。传统 RAG 出问题了,看检索结果对不对就行。Agentic RAG 出问题,可能是查询分解错了、可能是检索策略错了、也可能是反思逻辑错了——排查起来复杂得多。
什么时候用 Agentic RAG?
我的建议是:看场景。
如果你的知识库问答主要是简单事实查询(「公司地址在哪」「产品规格是什么」),传统 RAG 够用了,没必要为了那 5% 的提升增加 4 倍延迟。
但如果你的场景涉及复杂推理、多文档交叉验证、动态数据计算——比如金融分析、法律咨询、医疗诊断——Agentic RAG 的价值就很明显。
说白了,Agentic RAG 不是「更好版本的 RAG」,而是「解决不同问题的工具」。
一个思考
Agentic RAG 的兴起,其实反映了一个更大的趋势:AI 系统正在从「单次调用模型」向「多步骤智能体工作流」演进。
不只是 RAG,代码生成、数据分析、内容创作——所有这些场景,都在往「Agent + 工具 + 多轮迭代」的方向走。
这对开发者意味着什么?
意味着单纯调 prompt、调模型参数的时代正在过去。未来的核心竞争力,是设计「智能体工作流」的能力:怎么分解任务、怎么设计工具、怎么设置检查点、怎么处理异常。
这些能力,比「知道某个模型 API 怎么调用」值钱多了。
你觉得呢?在你的场景里,RAG 够用吗,还是已经在考虑 Agentic RAG 了?