技术百科

搜索技术百科

技术百科

发布

RAG

修改于 2026-06-11 15:32:19

概述

RAG（Retrieval-Augmented Generation）是一种将信息检索与生成式大语言模型深度融合的人工智能技术框架。其核心逻辑在于通过动态调用外部知识库，为生成模型提供实时、权威的上下文信息，从而弥补传统大语言模型在知识时效性、领域适配性和内容可靠性上的缺陷。RAG技术通过引入外部知识源实时检索机制，使模型在生成响应前能够获取精准信息支撑，有效解决了大语言模型的"幻觉问题"，同时增强了信息的时效性和安全性，成为当前AI领域的重要技术趋势。

一、RAG的核心组成部分有哪些？

1. 检索模块（Retriever）

查询编码器（Query Encoder）：将用户输入的查询转换为向量表示，使用与文档索引相同的嵌入模型，确保查询与文档在统一的向量空间中可比
向量数据库（Vector Database）：存储预先处理后的文档向量表示，支持高效的语义相似度搜索，常用系统包括腾讯云向量数据库、FAISS、Milvus、Pinecone、Weaviate、Qdrant、Chroma 以及 pgvector 等
检索算法：结合向量搜索（语义相似度）与关键词搜索（如BM25算法），通过混合检索提升召回率；许多RAG系统还引入重排序模型（Reranker）对检索结果进行二次精排

2. 生成模块（Generator）

大语言模型（LLM）：接收用户查询与检索到的相关上下文，生成自然语言响应；常用模型包括 GPT-5.2、Gemini 3 、Claude 4.7、Qwen 、混元等
提示词组装器（Prompt Assembler）：将检索到的相关文本片段与原始查询组织成结构化的提示词，为生成模型提供充分的上下文信息
输出后处理：对生成结果进行过滤、格式化、引用标注等处理，确保输出的可信度和可用性

3. 知识库与数据处理模块

数据摄取（Ingestion）：从多种来源（PDF文档、网页、数据库、API等）收集原始数据，支持结构化与非结构化数据
文本分块（Chunking）：将长文档分割为适当大小的文本片段，常用策略包括固定长度分块、递归字符分块、语义分块等，分块质量直接影响检索效果
嵌入模型（Embedding Model）：将文本转换为高维向量表示，常用模型包括 text-embedding-4-large、text-embedding-3-large、EmbeddingGemma-300M、text-embedding-005、voyage-3.5、embed-v4.0、Qwen3-Embedding、BGE-M3、Nomic Embed Text V2 等
索引构建（Indexing）：将文本块的向量表示存储在向量数据库中，建立高效的检索索引（如HNSW、IVF等算法）

二、RAG的工作流程是什么？

1. 索引构建阶段（离线预处理）

数据收集与解析：从企业知识库、文档系统、数据库中收集原始数据，或从腾讯云 COS 等云存储服务中批量导入，进行格式解析与内容提取
文本分块处理：将长文档按照语义边界分割为适当大小的文本块（Chunk），通常每个块包含200-500个token，并设置一定的重叠区域以保持上下文连续性
向量化与索引：使用嵌入模型将每个文本块转换为高维向量，并将向量与原始文本、元数据一起存储在向量数据库中

2. 检索阶段（查询时执行）

查询编码：将用户的自然语言查询通过相同的嵌入模型转换为向量表示
相似度搜索：在向量数据库中执行近似最近邻搜索（ANN），找出与查询向量最相似的Top-K个文本块
结果重排序：使用交叉编码器（Cross-Encoder）或重排序模型对初步检索结果进行重新打分和排序，提高检索精度

3. 增强与生成阶段

上下文组装：将检索到的相关文本块与原始查询组合成增强后的提示词，为生成模型提供充分的上下文信息
答案生成：大语言模型基于增强后的提示词生成最终响应，回答用户的问题
结果后处理：对生成结果进行格式优化、来源标注、安全检查等后处理操作

三、RAG有哪些主要优势？

1. 提高事实准确性，减少幻觉问题

RAG通过从可靠、最新的数据源中检索信息，降低模型"编造"事实的倾向，确保生成的响应有事实依据
生成的答案基于检索证据而非仅依赖模型记忆，显著提高了输出的可信度

2. 知识动态更新，无需重新训练

仅需更新知识库中的文档，无需对整个大语言模型进行重新训练，大幅降低了模型迭代的成本和时间
系统能够基于最新数据提供响应，保持答案的时效性

3. 领域适配灵活，降低技术门槛

RAG可根据不同领域或知识库轻松进行调整，无需对生成模型进行彻底的重新训练或微调
企业无需组建专业的AI团队或具备深厚的机器学习背景即可使用先进的AI能力

4. 安全可控，保护数据隐私

企业数据可本地存储，避免敏感信息泄露给第三方大模型服务商
通过权限管理和访问控制，确保不同用户只能访问其有权限的知识内容

5. 可解释性强，提供来源追溯

RAG系统可以提供答案的来源文档或知识片段，增强结果的可信度和可解释性
用户和开发者可以检查哪些文档或知识源被检索和使用，便于验证和调试

四、RAG技术的应用场景有哪些？

1. 企业知识管理与智能搜索

增强企业内部搜索能力，可基于腾讯云 ES 等检索引擎构建企业级知识库，从海量企业文档、wiki页面和知识库中检索并综合信息
员工可通过自然语言提问，快速获取企业内部政策、操作流程、技术文档等信息

2. 智能客服与技术支持

客服聊天机器人基于最新的产品文档、故障排除指南和历史支持记录回答客户问题
减少问题 resolution 时间，同时保持复杂产品生态系统中的高准确性

3. 专业领域问答（法律、医疗、金融）

法律领域：在监管框架和法律文档数据库中导航，为专业人士提供带有适当引用和参考的细致指导
医疗领域：从医学文献和临床指南中检索信息，辅助医疗提供者进行诊断建议，同时确保可追溯性
金融领域：基于最新市场数据、财报和监管文件生成准确回答

4. 内容生成与知识辅助

利用企业自有数据来源生成高质量、基于事实的内容，包括文章撰写、文档摘要和报告生成
研发团队可基于最新科学文献进行查询，并直接引用相关论文

5. 代码生成与技术研发

基于企业内部代码库、API文档和开发规范生成代码建议和解释
支持测试用例生成、代码审查和技术文档编写
支持多模态代码文档理解（如图表、流程图），可使用多模态 RAG 处理包含视觉元素的代码文档

五、RAG与传统大语言模型有什么区别？

1. 知识来源与更新机制

传统LLM：知识完全依赖于预训练数据，存在知识时效性不足的问题，无法覆盖快速迭代的专业领域知识
RAG：通过引入外部知识源，实现知识动态更新，知识库可实时接入最新数据，无需重新训练模型

2. 事实准确性与幻觉问题

传统LLM：容易生成看似合理但实际错误的内容（幻觉问题），特别是在训练数据未充分覆盖的领域
RAG：答案基于检索证据，而非仅依赖模型记忆，显著减少了事实错误的概率

3. 上下文处理能力

传统LLM：上下文窗口长度有限，处理长文档或复杂查询时可能丢失重要信息
RAG：通过检索相关文本片段，能够处理长上下文和详细查询，适用于法律文档分析、研究支持等任务

4. 领域专业化与定制成本

传统LLM：需要通过微调（Fine-tuning）来实现领域适配，计算成本高、迭代周期长
RAG：无需重新训练即可实现领域适配，仅需更换或更新数据源，成本更低、灵活性更高

5. 可解释性与透明度

传统LLM：生成过程的"黑盒"特性使得结果难以解释和验证
RAG：可提供答案来源，用户可检查检索到的文档或知识源，增强了系统的可解释性和信任度

六、RAG如何处理多模态数据？

1. 多模态RAG的基本原理

多模态RAG是传统RAG系统的扩展，能够处理和理解多种类型的数据（如文本、图像、音频、视频等），而不仅仅是文本
核心技术包括多模态表示学习、跨模态检索和多模态生成，使系统能够处理需要理解不同数据类型之间关系的复杂问题

2. 多模态编码器与向量表示

文本编码器：使用BERT、RoBERTa等模型将文本转换为向量表示
图像编码器：使用ViT（Vision Transformer）、ResNet等模型提取图像特征
音频编码器：使用Wav2Vec、HuBERT等模型处理音频内容
多模态对齐：使用CLIP、ALBEF、ImageBind、Gemini Embedding 2、Amazon Nova Multimodal Embeddings等模型将不同模态的数据映射到统一的向量空间中，实现跨模态的相似度计算

3. 多模态检索策略

统一向量空间检索：使用能够在同一向量空间中处理多种模态的模型（如CLIP、ImageBind、Gemini Embedding 2等）进行检索
跨模态检索：支持使用一种模态的查询（如图像）检索另一种模态的相关内容（如文本）
多模态重排序：对检索结果进行跨模态的重排序，确保最相关的内容排在前面

4. 多模态生成与响应

多模态生成模型：使用能够理解和生成包含多种模态内容的模型（如Flamingo、BLIP-2、GPT-4V、GPT-5、Gemini 3、豆包2.0等）创建响应
多模态上下文构建：将检索到的多模态内容组织成合适的上下文，供生成模型使用
响应呈现：生成包含多种模态元素的最终响应，如在文本回答中嵌入相关图像或图表

七、RAG如何保证检索结果的相关性？

1. 混合检索策略

向量搜索（语义搜索）：基于查询与文档在向量空间中的语义相似度进行检索，能够理解同义词和上下文关系；可使用 Gemini Embedding 2、Amazon Nova Multimodal Embeddings 等先进模型
关键词搜索（BM25）：基于词汇匹配进行检索，确保精确匹配查询中的关键术语
混合检索融合：结合向量搜索与关键词搜索的优点，使用加权融合或排序融合算法（如 RRF：Reciprocal Rank Fusion）生成最终排序；也可使用学习融合模型进行更精确的融合
查询路由（Query Routing）：将不同性质的查询发送到不同的检索管道，提高检索效率，是较新的检索优化技术

2. 查询理解与改写

查询意图识别：分析用户的查询意图，确定所需信息的类型和范围
查询改写与扩展：对原始查询进行改写或扩展，生成多个相关查询，提高检索召回率
查询分解：将复杂查询分解为多个子查询，分别检索后合并结果

3. 结果重排序与过滤

重排序模型（Reranker）：使用交叉编码器或更精细的模型对初步检索结果进行重新打分，将最相关的结果排在前面
上下文感知过滤：基于查询的上下文信息（如对话历史、用户偏好等）对检索结果进行过滤
多样性保证：确保检索结果覆盖查询的多个方面，避免结果过于单一

4. 元数据与过滤条件

元数据过滤：利用文档的元数据（如发布时间、作者、来源、类别等）对检索结果进行过滤
权限与访问控制：确保检索结果符合用户的访问权限，避免泄露敏感信息
时效性过滤：优先返回最新或最相关的文档，特别是对于时效性强的查询

八、RAG如何评估系统性能？

1. 检索质量评估指标

上下文精确率（Context Precision）：衡量检索到的上下文中有多少比例是真正与用户问题相关的，高精度意味着检索器返回的噪声较少；生产系统建议阈值 ≥ 0.80
上下文召回率（Context Recall）：衡量在所有真正相关的文档块中有多少比例被成功检索出来，高召回率意味着检索器遗漏的关键信息较少；生产系统建议阈值 ≥ 0.85
命中率（Hit Rate）：至少检索到一个相关文档的查询比例
平均倒数排名（MRR）：第一个相关文档排名的倒数的平均值，奖励将相关文档排在靠前的位置

2. 生成质量评估指标

答案忠实度/真实性（Answer Faithfulness/Groundedness）：衡量生成的答案是否严格基于提供的上下文信息，没有捏造事实或与上下文矛盾；生产系统建议阈值 ≥ 0.90
答案准确性/正确性（Answer Accuracy/Correctness）：衡量生成的答案与客观标准参考答案的匹配程度或其事实内容的正确性；生产系统建议阈值 ≥ 0.85
答案相关性（Answer Relevancy）：衡量生成的答案是否真正回应用户问题，而不是改写一遍问题本身；生产系统建议阈值 ≥ 0.85
答案完整性（Answer Completeness）：衡量生成的答案是否充分覆盖了用户问题所询问的各个要点

3. 端到端系统评估

用户满意度：通过用户反馈（如点赞/点踩、打分、评论）或A/B测试等方式收集，是衡量系统实际价值的最直接指标
任务完成率：在特定应用场景下（如客服问答、信息查询），评估RAG系统帮助用户成功完成其任务的比例
总体回答质量：对RAG系统生成的最终回答进行综合打分（如流畅性、有用性、安全性等）

4. 系统性能与效率指标

检索延迟：从发送查询到返回检索结果所需的时间，生产系统建议 < 50ms（可使用 FAISS、HNSW、ScaNN 等优化算法）
生成延迟：从接收上下文到生成完整答案所需的时间，生产系统建议 P95 < 3秒
端到端响应时间：从用户发送查询到接收完整回答的总时间，生产系统建议 < 3秒
吞吐量与并发能力：系统同时处理多个查询的能力，生产系统建议支持 1000+ 查询/分钟
成本指标：包括总token消耗、API调用次数、计算资源使用等，LLM-judged evaluation 成本约为每个测试用例 $0.001-0.003

九、RAG系统的延迟和性能如何优化？

1. 检索阶段优化

高效向量搜索算法：使用HNSW（Hierarchical Navigable Small World）、IVF（Inverted File）等高效近似最近邻搜索算法，平衡检索精度与速度
向量压缩与量化：使用向量压缩技术（如PQ：Product Quantization）减少存储空间和计算开销，提高检索速度
缓存机制：对常见查询的检索结果进行缓存，减少重复计算
并行检索：对多个数据源或多种检索策略（如向量搜索与关键词搜索并行执行）进行并行化处理

2. 生成阶段优化

模型选择与优化：根据任务需求选择合适大小的生成模型，考虑使用量化、剪枝等模型压缩技术，可根据任务复杂度动态选择模型大小
上下文长度控制：通过检索结果过滤和摘要技术，控制输入给生成模型的上下文长度，减少计算开销
流式生成：使用流式输出技术，让用户在生成完成前就能看到部分结果，改善用户体验
批量处理：对多个查询进行批量生成，提高GPU利用率
语义缓存：对常见查询的检索结果进行缓存，减少重复计算，建议缓存命中率达到 30-40%

3. 系统架构与工程优化

异步处理与流水线：将RAG流程中的各个阶段（查询理解、检索、重排序、生成等）设计为异步执行的流水线，提高系统吞吐量
负载均衡与自动扩缩容：根据查询负载动态调整计算资源，确保在高并发场景下的稳定性能
边缘计算与模型分发：将部分计算任务分发到边缘节点，减少网络传输延迟
监控与性能分析：建立全面的监控系统，实时跟踪各阶段的延迟、吞吐量和错误率，快速定位性能瓶颈

十、RAG在知识密集型任务中表现如何？

1. 知识密集型任务的特点与挑战

知识密集型任务要求系统能够访问、理解和综合大量专业知识，如开放域问答、技术文档查询、专业领域咨询等
传统大语言模型在面对这类任务时，往往受限于训练数据的时效性和覆盖面，容易产生不准确或片面的回答

2. RAG在知识密集型任务中的优势

广泛知识访问：通过高效地从广泛而多样化的来源中检索信息，RAG在开放域问题解答和类似任务方面表现卓越
事实准确性保障：基于实际检索到的内容生成回答，显著减少了虚幻内容，生成的回答更有依据、更可靠
可扩展性与大知识库处理：RAG可以从庞大的数据集中高效搜索和检索相关信息，适用于需要大量知识访问的应用

3. 实际应用效果与案例

在企业知识管理场景中，RAG系统能够准确回答员工关于内部政策、操作流程等方面的问题，显著提高了信息获取效率
在专业领域（如法律、医疗、金融）咨询中，RAG系统能够基于最新的法规、临床指南或市场数据提供准确的专业建议
在研发支持场景中，RAG系统能够帮助研究人员快速获取最新科学文献和相关技术资料，加速创新过程

十一、RAG开源框架和工具有哪些？

1. LangChain

定位与特点：LangChain 是一个功能极其全面的、用于开发由语言模型驱动的应用程序的通用框架，强调工具链、代理和 RAG 流程的支持，当前版本为 v2.0+
核心功能：提供丰富的集成生态系统（向量数据库、大模型提供商、工具等）、LangGraph子项目用于基于图的代理工作流处理、预制RAG模板（对话式RAG、多查询、父-子、查询路由等）
适用场景：复杂的、多步骤和代理式的RAG工作流，已经使用LangChain进行工具/代理的团队

2. LlamaIndex

定位与特点：LlamaIndex（以前称为GPT Index）是一个专门为连接LLM与私有数据而设计的"数据框架"，核心使命是解决数据处理的各种难题
核心功能：提供丰富的索引类型、查询引擎、路由器和融合策略，在文档密集型应用中表现强劲；简化索引和查询数据的过程，使构建需要上下文感知响应的应用程序更容易，已增强多模态数据处理能力
适用场景：个人助手、知识机器人、RAG演示等，特别是需要处理复杂数据结构和多模态内容的应用

3. Haystack

定位与特点：由 deepset AI 开发的 Haystack 是一个强大的、模块化的框架，专为构建生产就绪的 NLP 系统而设计，已增强企业级功能和可观测性
核心功能：主要通过构建管道（Pipelines）来工作，数据在其中被一系列组件按顺序处理；支持各种组件如检索器、阅读器和生成器，允许与 Elasticsearch、Hugging Face Transformers 等工具无缝集成，已增加对多模态数据和智能体 RAG 的支持
适用场景：企业级问答系统、聊天机器人、内部文档搜索等需要高可靠性和可观测性的场景

4. 其他重要开源框架

RAGFlow：专注于深度文档理解的开源引擎，提供简化的工作流供企业实现 RAG 系统，强调有事实依据的问答支持，已增强多模态文档处理能力
txtAI：集语义搜索与 RAG 能力于一体的全能 AI 框架，允许构建高效搜索、索引和检索信息的应用程序，已优化向量搜索性能
Cognita：模块化 RAG 框架，专为轻松定制和部署而设计，提供前端界面以实验不同的 RAG 配置，已增加企业级功能

十二、RAG在处理长文本时有哪些策略？

1. 文档分块（Chunking）策略

固定长度分块（Fixed-Size Chunking）：按照固定字符数或token数切分文本，实现简单、速度快，但可能破坏语义完整性
递归字符分块（Recursive Character Splitting）：尝试按照一系列预设的分隔符（如段落、换行、句号等）进行分层切分，优先保证段落和句子的完整性，是业界最常用且效果不错的默认选项
语义分块（Semantic Chunking）：利用嵌入模型理解文本的语义，将语义上相近、讨论同一主题的连续句子聚合在一起形成一个块，能最大程度地保留上下文的连贯性

2. 层次化与结构化分块

层次切片（Hierarchical Chunking）：按照文档结构（标题、章节、小节等）进行切分，保持文档逻辑结构，适用于技术文档、教材等具有强结构化的文档
父子索引/小到大策略（Parent-Child/Small-to-Big）：将"用于检索的内容"和"传给LLM的内容"解耦，使用较小的子块进行检索，但将较大的父块提供给LLM作为上下文，平衡检索精度与上下文丰富度

3. 上下文保持与优化技术

块重叠（Chunk Overlap）：让相邻的两个块之间有部分内容重叠（例如重叠10-20%的块大小），防止在切分边界丢失关键信息，保证上下文的连续性
自适应分块（Adaptive Chunking）：根据文档的内容动态调整关键参数（例如块大小和重叠），对复杂、信息丰富的段落创建更小、更细粒度的块，同时对更通用、介绍性的部分使用更大的块
Late Chunking：先对完整文档进行嵌入，然后再推导出块嵌入，这种较新的技术能够提供更好的检索召回率

十三、如何构建一个生产级别的RAG系统？

1. 生产级RAG系统的核心架构

数据摄取与解析层：负责从多种来源（文件上传、腾讯云 COS 等云存储、API、数据库等）收集原始数据，进行格式解析、内容提取、清洗和标准化处理
处理与索引层：对清洗后的数据进行分块、生成嵌入、构建索引，并将向量表示与文本内容、元数据一起存储在向量数据库中（如腾讯云向量数据库）
检索与排序层：在查询时执行混合检索（语义搜索+关键词搜索），对检索结果进行重排序，确保返回最相关的上下文
生成层：将检索到的高质量上下文组装成提示词，输入给大语言模型生成回答，并进行输出后处理
可观测性与运维层：提供查询日志、检索诊断、延迟监控、token使用跟踪、提示/版本跟踪、用户反馈捕获等功能

2. 关键技术决策与最佳实践

分块策略选择：根据文档类型和应用场景选择合适的分块策略，建议使用语义分块，块大小设置为 500-1500 tokens，重叠 10-20%
嵌入模型选择：根据领域特点和性能需求选择合适的嵌入模型，建议使用专用嵌入模型（如 voyage-3.5 用于代码，embed-v4.0 用于多模态）
向量数据库选择：根据数据规模、查询性能要求、成本预算和技术栈选择合适的向量数据库（如腾讯云向量数据库、Pinecone、Milvus、Weaviate等）
混合检索策略：结合向量搜索（语义相似度）与关键词搜索（BM25），使用 reciprocal rank fusion (RRF) 或学习融合模型合并结果
重排序模型选择：使用交叉编码器或重排序模型对初步检索结果进行重新打分，提高检索精度
评估框架建立：建立全面的评估框架，持续监控检索质量、生成质量、系统性能和用户满意度，指导系统优化，可使用 RAGAS、DeepEval、Patronus 等框架

3. 生产环境部署与运维考虑

可扩展性设计：确保系统能够处理不断增长的数据规模和高并发查询负载，采用分布式架构和自动扩缩容机制，可使用 tiered indexing（热索引、温索引、冷索引）优化性能
安全与权限控制：实施细粒度的访问权限控制，确保不同用户只能访问其有权限的知识内容，保护数据隐私和安全，建议使用 RBAC（基于角色的访问控制）和元数据过滤
版本管理与回滚：对提示词模板、检索设置、分块逻辑、嵌入模型、重排序器配置等进行版本管理，支持快速回滚和问题定位
持续监控与改进：建立全面的监控体系，实时跟踪系统性能、用户反馈和业务指标，持续优化系统效果，可使用 RAG Triad、LLM-as-a-Judge 等框架进行持续评估
缓存策略：实施语义缓存，对常见查询的检索结果进行缓存，减少重复计算，建议缓存命中率达到 30-40%
模型选择优化：根据任务选择合适的模型大小，避免不必要的成本；使用较小的模型进行查询改写和摘要，保留最强大的模型用于最终答案生成

十四、RAG与Fine-tuning（微调）有什么区别和联系？

1. 核心区别：解决问题的性质不同

RAG解决的是"模型不知道资料在哪里"的问题：通过实时检索外部知识源，为模型提供生成回答所需的事实依据和上下文信息
Fine-tuning解决的是"模型不知道该怎么做"的问题：通过调整模型参数，使模型学习特定的任务模式、回答风格、格式要求或专业术语使用习惯

2. 技术机制对比

RAG：不改变模型权重，不修改模型内部参数，仅在推理时动态注入外部知识，影响仅限于当前这一次回答
Fine-tuning：会修改模型权重，将特定领域知识或行为模式"学习进"模型中，影响该模型未来所有的回答

3. 适用场景与选择建议

适合使用RAG的场景：知识内容经常变化（每周或每月更新）、需要即时生效、需要可追溯的答案来源、数据安全感要求高（地端部署）等
适合使用Fine-tuning的场景：回答风格（语气、格式）需要高度一致、特定任务能力（抽取实体、判断情感等）、专业语言表达（医疗、法务语境）等
混合策略：在实际应用中，RAG与Fine-tuning往往结合使用，Fine-tuning用于教模型"怎么回答"（调整风格、流程、格式等），RAG用于提供"现在要用的资料"（文档、知识、事实来源）

十五、RAG与Prompt Engineering（提示工程）有什么关系？

1. 核心关系：相辅相成，缺一不可

Prompt Engineering是RAG的"大脑"：RAG检索到的文档片段需要通过精心设计的提示词，才能被模型正确理解和整合，生成高质量的回答
RAG是Prompt Engineering的"延伸"：提示词长度有限，RAG可以将无限多的外部知识"按需注入"到提示词中，突破上下文窗口限制

2. 技术层面的协同作用

查询理解与改写：Prompt Engineering技术可以用于优化用户查询，使其更清晰、更具体，提高检索的相关性和准确性
提示词组装与优化：如何将检索到的多个文档片段有效地组织到提示词中，是影响RAG系统效果的关键环节，需要精心设计的提示词模板和策略
生成过程控制：通过Prompt Engineering技术，可以控制生成模型的行为，如要求模型基于检索到的内容回答、要求提供引用来源、要求特定输出格式等

3. 实际应用中的最佳实践

迭代优化：同时优化检索策略（提高召回率和精确率）和提示词设计（提高生成质量和相关性），实现系统整体效果的提升
评估与调试：建立评估框架，分别评估检索质量和生成质量，快速定位问题是出在检索阶段还是生成阶段，有针对性地改进
用户反馈循环：收集用户对系统回答的反馈，不仅用于改进检索和生成模型，也用于优化提示词设计和查询理解策略

RAG