深度解读
RAG 评测闭环:从检索命中到答案可信
把检索质量、生成质量、引用正确性和线上反馈连接成可持续迭代的评测体系。
#不要只测最终答案
只对最终答案打分会把检索、重排、上下文组装和生成阶段的问题混在一起。可靠的 RAG 评测需要把链路拆开,并保留每一步的可解释证据。
#四层指标
- 检索层:关注召回率、首个相关结果位置、权限过滤和时间有效性。
- 重排层:比较候选文档在重排前后的相关性变化。
- 生成层:检查答案完整性、拒答边界和指令遵循。
- 引用层:验证引用是否真的支持对应结论,而不是只检查是否存在链接。
#数据闭环
离线集合覆盖高频问题、长尾问题、无答案问题和权限边界。线上将低置信答案、用户纠正、检索为空和人工升级事件回流为新样本,再由固定版本的评测任务比较变更前后结果。
#架构决策清单
- 为查询、候选文档、重排结果、最终上下文和答案分配同一 Trace ID。
- 评测数据记录知识库版本,避免内容变化造成不可复现结果。
- 将引用一致性作为独立门槛,不被综合平均分掩盖。
- 生产发布采用质量、延迟和成本的联合阈值。
#判断标准
RAG 系统的目标不是让每个答案看起来更流畅,而是让团队能够定位错误发生在哪一层,并用可重复的证据证明一次改动确实提高了可信度。
证据来源
修订记录
最近修订:2026-06-07。CONVEE 在原始证据或架构判断变化时更新本文。