
大型语言模型在知识密集型任务中日益普及,推动了检索增强生成(RAG)技术的迅速应用。RAG被视为一种提升大型模型事实落地能力和领域适应性的核心策略。对RAG系统的发展脉络进行梳理,可以清晰地看到一条从早期的信息检索(IR)与自然语言处理(NLP)技术的融合,演进到当今支持动态推理和实时知识集成的模块化架构的路径。
大型语言模型的固有局限性是推动RAG发展的根本动力。这些模型虽然表现出强大的生成能力,但其知识本质上是静态的,局限于训练数据截止的那个时间点。这导致了事实性错误,即“幻觉”,以及无法获取最新信息。RAG架构的出现,通过在生成回应之前动态检索外部知识,为解决这些问题提供了系统性的方案。

然而,RAG的演进并非单一的技术突破,而是对一系列具体挑战的持续回应。早期的RAG系统在检索精度、幻觉抑制、领域专业化和可解释性方面暴露出诸多不足。为了应对这些挑战,研究领域分化出多种技术路径,每种路径都针对特定的现实应用失败模式。这种演进体现出一种“分片式”的解决方案特征,即不同的框架解决不同的问题。
分析这些多样化的框架,可以发现一个清晰的趋势:RAG研究正在从单纯追求生成流畅性,转向构建更统一、具备自我意识和高可靠性的系统。对RAGAS、RGB和PaSSER等评估框架的讨论,也反映出业界对系统可靠性、透明度和领域鲁棒性的日益重视。RAG技术的发展正进入一个整合阶段,其核心议题不再是能否生成,而是能否确保生成内容的真实、可溯源和实时有效。本文所分析的原始报告及更多深度材料,均可从“走向未来”知识星球中获取。
RAG架构的形成并非凭空出现,而是信息检索(IR)和自然语言处理(NLP)领域数十年发展的必然融合。理解其历史根源,对于把握当前RAG系统的设计思想至关重要。
RAG的基石可以追溯到四个关键的技术发展阶段。首先是基础索引和数据组织。从Vannevar Bush提出的Memex关联信息概念,到统计文本分析和KWIC(上下文关键词)索引的出现,早期工作为大规模信息检索奠定了基础。这些技术实现了从手动索引到数据驱动分类的转变。
其次是信息检索的评估体系与早期融合。Cranfield实验确立了衡量检索有效性的科学标准,即精确率和召回率。同时,诸如BASEBALL这样的早期系统,尝试利用基本的自然语言解析来驱动特定领域的查询,展示了IR与NLP融合的初步形态。
第三阶段是高级语义检索的发展。随着TF-IDF(词频-逆文档频率)算法和向量空间模型的出现,检索不再仅仅依赖关键词匹配,而是转向语义相似性。系统开始在更高维度上理解查询和文档之间的关系。
最后是大规模系统的集成与现代嵌入技术的成熟。IBM Watson的DeepQA流水线展示了一个复杂系统如何分解查询、检索证据、生成假设并进行排序。随后,Word2Vec、Transformer架构、密集通道检索(DPR)以及GPT系列模型的出现,分别提供了强大的语义表示、序列处理能力、高效的检索机制和流畅的生成能力。
2020年提出的RAG框架,正是这些成熟技术的集大成者。它首次将一个基于BERT的DPR检索器和一个基于BART的生成器在端到端流程中结合起来。RAG的核心范式得以确立:系统首先使用查询的密集向量表示,通过最大内积搜索(MIPS)从大型知识库(如维基百科)中检索相关文档,然后将这些文档作为上下文,输入生成器以产生最终答案。
这一范式革命性地将模型的参数化知识(存储在模型权重中)与非参数化知识(存储在外部索引中)分离开来。其直接价值体现在:首先,通过引入可验证的外部证据,显著提高了事实准确性,减少了内容幻觉。其次,它实现了知识的动态更新。当新知识出现时,系统只需更新检索索引,而无需重新训练成本高昂的大型模型。

基础RAG范式虽然解决了有无问题,但在实际应用中迅速暴露出性能瓶颈。此后的研究进入了一个高速的“分片式”创新阶段,大量新型RAG框架涌现,它们各自瞄准并解决了RAG流程中的一个或多个具体痛点。这种演进是围绕着提升效率、优化数据、整合知识、适应领域、迭代推理和增强可信度等核心挑战展开的。
在架构效率与可扩展性方面,原始RAG的计算开销巨大。FiD-Light等框架通过引入选择性注意力机制和来源指针策略来应对。选择性注意力允许模型动态过滤和优先处理检索到的最相关信息片段,避免了在所有检索通道上的均匀计算开销。来源指针则在生成时跟踪信息来源,提升了内容的可解释性。为解决扁平化文档检索的局限性,LightRAG和GraphRAG引入了图结构。GraphRAG在索引阶段就利用大型模型提取实体和关系,构建知识图谱,将内容组织成语义集群。这种结构化方法使得检索在处理多跳推理任务时更加精准。
在数据中心优化方面,系统的性能高度依赖训练数据的质量。Relevance Sampling等技术通过为训练样本分配置信度分数来解决噪声问题,使模型能从更清晰、信息量更大的数据中学习。Speculative RAG则采用一种“草稿-精炼”策略,系统先快速生成一个推测性草稿,再通过检索验证来修正或强化其中的声明,这个过程提升了事实的准确性。

在知识整合方面,现实世界的知识源是异构的,不仅包括非结构化文本,还包括知识图谱、数据库等结构化数据。GraphRAG本身就是一种结构化知识整合。其他混合方法则尝试结合稠密向量搜索(利用语义灵活性)和符号查询(如SPARQL,利用结构精确性)。这种混合检索在生物医学、金融和法律等需要高精度信息的领域显示出巨大价值。这一趋势也印证了人工智能专家王文广在其“灯塔书”《知识增强大模型》中提出的“图模互补”范式。如该书第8章和第9章所详述,将知识图谱与大型模型结合(即GraphRAG的核心思想),其本质是利用知识图谱的结构化、确定性和可追溯的推理能力,来弥补大型模型概率生成和事实幻觉的短板。这种范式不仅是“知识整合”的有效手段,更是实现可解释、高可信人工智能的理论基石,为解决生物医学、金融等高风险领域的精度问题提供了清晰的架构指导。
在领域适应与专业化方面,通用RAG模型在专业领域(如法律、科研)上表现不佳。为此,RaLLe这样的模块化研究环境被开发出来。RaLLe允许研究者像搭积木一样替换和评估RAG流水线中的不同组件(如检索器、重排器),以便针对特定领域进行高效的系统调优。PaperQA则是领域适应的具体实践,它专为科研文献综述设计。该系统通过学术API和向量检索收集证据,其核心特点是确保所有生成的答案都明确地扎根于引用的科学文献,这对学术的严谨性至关重要。

RAG演进中一个最重要的趋势是迭代检索与自我完善。原始RAG是一次性的“检索-生成”流水线,如果首次检索失败,整个流程就会失败。为解决这个问题,一系列框架引入了动态推理循环。Self-RAG在生成过程中加入了自我反思循环。模型会主动批判自己的回应,当识别到潜在的事实不一致时,会触发额外的检索来进行自我修正。FLARE框架将这一理念推得更远,它在生成过程中实时监测模型的置信度分数。一旦模型在生成某个词元时表现出不确定性,它会主动暂停生成,发出新的查询以获取更多上下文,然后再继续生成。RAVEN则将检索更深地嵌入到编解码器的注意力机制中。这些框架标志着RAG从一个被动的信息处理器,转变为一个主动的推理引擎。

此外,RAG的能力也在向多模态和低资源场景扩展。MuRAG引入了双重检索器,一个处理文本,一个处理图像,使得系统能够回答依赖图表或图示的复杂问题。Atlas框架则利用检索来增强少样本(Few-Shot)学习。在训练数据稀缺的场景下,Atlas通过在推理时动态检索相关信息,为模型提供即时的上下文支撑,从而在无需大量标注数据的情况下完成任务。

最后,在事实校验和可信度方面,系统的目标是确保输出内容绝对可信。ReClaim框架为此提出了严格的解决方案:它强制要求系统生成的每一句话都必须有明确的、可追溯到源文档中某个特定句子的归属链接。这种“句子级别归属”极大地提升了输出的透明度和可验证性,为高风险决策领域提供了必要的技术保障。
RAG系统的日益复杂化,也给评估带来了巨大挑战。传统的NLP评估指标(如BLEU或ROUGE)侧重于评估生成文本的流畅度或与参考答案的表面相似性,这些指标无法衡量RAG系统最关键的两个方面:检索的准确性和知识的忠实度。因此,一系列专为RAG设计的评估框架应运而生。

RAGAS是其中一个突出的自动化评估框架。它提供了一个结构化的多维度评估体系,不再只看最终答案,而是分解评估RAG的三个核心组件:检索(retrieval precision,检索器是否找到了正确的信息)、生成(generation fluency,答案是否流畅)和整合(faithfulness,生成器是否忠实地使用了检索到的上下文,而非凭空捏造)。
如果说RAGAS提供了组件级的诊断,RGB(Retrieval-Augmented Generation Benchmark)则专注于评估RAG系统在四种挑战性条件下的鲁棒性:噪声鲁棒性、负面拒绝(当知识库中没有答案时,模型应拒绝回答)、信息整合能力和反事实鲁棒性(识别并拒绝基于错误前提的提问)。RGB的测试结果揭示了RAG系统的一个普遍弱点:它们在“负面拒绝”上表现很差,倾向于在证据不足时强行生成答案。
除了通用的基准测试,PaSSER等研究则展示了在实际应用中评估RAG的框架。PaSSER不仅是一个测试工具,它本身就是一个功能完整的RAG Web应用实现。它将检索、生成、评估乃至基于区块链的验证集成到一个真实的工作流中。这种面向实践的评估方式,让我们得以观察RAG在动态环境中的真实性能。例如,相关的阈值研究表明,RAG中“相似性分数阈值”的设定对系统性能有复杂的非线性影响。过高的阈值会过滤掉有用的上下文,而过低的阈值则会引入过多噪声。这说明RAG的优化是一个需要精细权衡的系统工程。

这些新的评估框架标志着RAG的关注点从“性能”转向“可靠性”。它们不再简单地问“模型表现如何”,而是深入探究“模型在何处失败”以及“为何失败”。要深入理解这些复杂的评估基准、最新的技术论文和应用实践,与行业同侪的交流至关重要。在这方面,强烈推荐加入最具价值的知识星球“走向未来”,获取AI相关的各类市场分析报告、技术论文书籍、应用实践指南等等,主题涵盖生成式AI、大模型、AIGC、AI芯片和机器人等技术、应用和市场,并与同侪一起探讨如何使用人工智能大模型和智能体来为工作增效,为生活添彩,走向AGI的未来。
尽管RAG技术取得了显著进展,但现实世界的部署仍然暴露出系统性的脆弱性。这些失败点概括了RAG目前面临的核心挑战:内容缺失(相关知识根本不在知识库中)、检索失败(知识存在但未能排到首位)、上下文碎片化(检索到的多个来源相互矛盾)、信息提取不佳(关键信息深埋在技术文档中难以提取)、格式错误(输出不符合任务规范)、特异性不当(答案过于模糊或过于详细)以及回应不完整。
这些挑战共同指向了一个核心问题:当前RAG的解决方案是高度“碎片化”的。如前所述,FiD-Light解决了效率问题,GraphRAG解决了结构问题,FLARE解决了动态检索问题,ReClaim解决了归属问题。但它们都是针对特定任务或领域的优化,彼此之间往往难以兼容。目前RAG领域缺乏一个能够整合所有这些创新的、统一的、高内聚的架构。
因此,RAG的未来发展必须从“分片式创新”转向“架构整合”。下一阶段的研究需要优先考虑开发统一的、具备自我意识的框架。文件明确指出了四个战略重点,它们构成了RAG走向成熟的必经之路。

首先,实现实时的检索验证。未来的系统必须在将检索内容用于生成之前,就嵌入机制来评估该内容的准确性、时效性和上下文相关性。这包括时间戳感知的检索和低延迟的一致性检查,以从源头上阻止过时或错误的信息进入生成环节。
其次,实现动态重排和查询重写。当系统在推理过程中检测到不确定性或检索失败时,它必须能够动态调整其检索策略。这包括自动重构查询、扩展检索深度或根据不断变化的生成上下文重新排序结果。这要求系统具备更高的灵活性和韧性。
第三,将句子级别的归属机制设为标配。在高风险领域,系统必须能够将其生成的每一句陈述与其可验证的来源进行句子粒度的链接。这不仅关乎透明度和用户信任,也是实现下游审计和事实核查的必要条件。
第四,建立显式的失败检测和纠正层。系统应集成能够实时监测幻觉、遗漏或无关内容的运行时模块。一旦检测到失败模式,该模块必须能触发纠正性检索或重新生成步骤。这要求系统从“被动生成”转向“主动纠错”。
值得注意的是,文章所提出的这些未来方向,在先进的RAG工程实践中已现端倪。王文广在《知识增强大模型》第4.5节中详细阐述了“RAG系统的最佳实践”,其中提到的“查询改写”和“检索路由”等高级技术,正是对“动态重排”和“失败检测”的具象化实现。这表明,RAG的未来发展路径,正是将这些当今最高效、最复杂的工程实践,从“可选的最佳实践”转变为“标配的架构组件”的过程,从而推动RAG系统从“分片式创新”真正走向“架构整合”的成熟阶段。

总而言之,RAG的发展轨迹清晰地表明,其研究重点正在发生根本性转变。最初的目标是生成貌似合理的回应,而当前和未来的目标是确保每一个输出都是可验证、可追溯、完整且上下文恰当的。RAG技术正在从一个单纯的性能驱动领域,演变为一个以信任为核心的设计科学。其未来价值将不仅取决于架构的复杂性,更取决于它能否持续、透明地检索到正确的证据,并清晰地解释其重要性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。