1. 检索质量评估指标
- 上下文精确率(Context Precision):衡量检索到的上下文中有多少比例是真正与用户问题相关的,高精度意味着检索器返回的噪声较少;生产系统建议阈值 ≥ 0.80
- 上下文召回率(Context Recall):衡量在所有真正相关的文档块中有多少比例被成功检索出来,高召回率意味着检索器遗漏的关键信息较少;生产系统建议阈值 ≥ 0.85
- 命中率(Hit Rate):至少检索到一个相关文档的查询比例
- 平均倒数排名(MRR):第一个相关文档排名的倒数的平均值,奖励将相关文档排在靠前的位置
2. 生成质量评估指标
- 答案忠实度/真实性(Answer Faithfulness/Groundedness):衡量生成的答案是否严格基于提供的上下文信息,没有捏造事实或与上下文矛盾;生产系统建议阈值 ≥ 0.90
- 答案准确性/正确性(Answer Accuracy/Correctness):衡量生成的答案与客观标准参考答案的匹配程度或其事实内容的正确性;生产系统建议阈值 ≥ 0.85
- 答案相关性(Answer Relevancy):衡量生成的答案是否真正回应用户问题,而不是改写一遍问题本身;生产系统建议阈值 ≥ 0.85
- 答案完整性(Answer Completeness):衡量生成的答案是否充分覆盖了用户问题所询问的各个要点
3. 端到端系统评估
- 用户满意度:通过用户反馈(如点赞/点踩、打分、评论)或A/B测试等方式收集,是衡量系统实际价值的最直接指标
- 任务完成率:在特定应用场景下(如客服问答、信息查询),评估RAG系统帮助用户成功完成其任务的比例
- 总体回答质量:对RAG 系统生成的最终回答进行综合打分(如流畅性、有用性、安全性等)
4. 系统性能与效率指标
- 检索延迟:从发送查询到返回检索结果所需的时间,生产系统建议 < 50ms(可使用 FAISS、HNSW、ScaNN 等优化算法)
- 生成延迟:从接收上下文到生成完整答案所需的时间,生产系统建议 P95 < 3秒
- 端到端响应时间:从用户发送查询到接收完整回答的总时间,生产系统建议 < 3秒
- 吞吐量与并发能力:系统同时处理多个查询的能力,生产系统建议支持 1000+ 查询/分钟
- 成本指标:包括总token消耗、API调用次数、计算资源使用等,LLM-judged evaluation 成本约为每个测试用例 $0.001-0.003