深度解读

RAG 评测闭环：从检索命中到答案可信

把检索质量、生成质量、引用正确性和线上反馈连接成可持续迭代的评测体系。

CONVEE Research · 阅读时间 3 分钟 · 发布于 2026-06-07

#不要只测最终答案

只对最终答案打分会把检索、重排、上下文组装和生成阶段的问题混在一起。可靠的 RAG 评测需要把链路拆开，并保留每一步的可解释证据。

#四层指标

检索层：关注召回率、首个相关结果位置、权限过滤和时间有效性。
重排层：比较候选文档在重排前后的相关性变化。
生成层：检查答案完整性、拒答边界和指令遵循。
引用层：验证引用是否真的支持对应结论，而不是只检查是否存在链接。

#数据闭环

离线集合覆盖高频问题、长尾问题、无答案问题和权限边界。线上将低置信答案、用户纠正、检索为空和人工升级事件回流为新样本，再由固定版本的评测任务比较变更前后结果。

#架构决策清单

为查询、候选文档、重排结果、最终上下文和答案分配同一 Trace ID。
评测数据记录知识库版本，避免内容变化造成不可复现结果。
将引用一致性作为独立门槛，不被综合平均分掩盖。
生产发布采用质量、延迟和成本的联合阈值。

#判断标准

RAG 系统的目标不是让每个答案看起来更流畅，而是让团队能够定位错误发生在哪一层，并用可重复的证据证明一次改动确实提高了可信度。

证据来源

修订记录

最近修订：2026-06-07。CONVEE 在原始证据或架构判断变化时更新本文。

相关内容

返回RAG 与数据专题