一篇名为《SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION》的论文提出了一个创新解决方案——SELF-RAG 本文将深入探讨SELF-RAG框架的工作原理及其优势。什么是SELF-RAG? SELF-RAG如何工作? SELF-RAG框架包括以下几个关键步骤:按需检索(On-demand Retrieval):SELF-RAG训练一个语言模型(LM),使其能够根据任务输入自适应地决定是否需要检索额外的信息。 SELF-RAG的优势与传统的语言模型相比,SELF-RAG框架有以下几个显著优势:**提高事实准确性**:通过检索和自我反思,SELF-RAG能够减少生成响应中的事实错误,提供更准确的信息。
Self-RAG(自我反思的检索增强生成) 就是来解决这个痛点的。它让AI学会了一项关键能力:三思而后答。 第三代:聪明客服(Self-RAG)用户:"我的外卖怎么还没到?" 提升系统质量在实际项目中应用Self-RAG,可以显著提升AI系统的准确性和可信度,减少"一本正经胡说八道"的情况。3. 解决实际问题无论是做客服机器人、知识问答系统还是智能助手,Self-RAG都能让你的产品更聪明、更靠谱。总结:AI的"三思而后答"哲学Self-RAG的核心思想很简单:让AI学会思考,而不是机械执行。 Self-RAG把这套逻辑教给了AI。下次你用AI助手的时候,如果它的回答特别靠谱、特别有针对性,别惊讶——它可能就是用了Self-RAG技术!
这一步骤是Self-RAG的核心,它使模型能够评判自己的输出,选择最准确和相关的段落,并对其进行迭代或改进。 图中还展示了Self-RAG模型在处理不同类型的问题时可能的行为。 1.5 Self-RAG的优势 优势-1 :SELF-RAG为每个段落提供了引用,并自我评估输出是否受到段落的支持,从而便于事实验证。 1.6 Self-RAG实验结果 SELF-RAG在多种任务上显著优于其他先进的LLMs和检索增强模型。 Self-RAG 核心算法 SELF-RAG是一个增强语言模型质量和事实性的框架,通过检索和自我反思实现,而不损失原始创造性和多功能性。 2.3 Self-RAG 推理 论文介绍了 SELF-RAG 模型如何在推理阶段生成反思tokens,这使得它能够自我评估其输出。
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性1. SELF-RAG 并行处理多个段落以生成每个段落,并使用自己生成的反射标记对生成的任务输出执行软约束或硬控制。 SELF-RAG 通过预测” 检索”(Retrieve)来动态决定何时检索文本段落。另外还允许设置阈值。 Llama2-FT7B 是在与 SELF-RAG 相同的指令 - 输出对上训练的基准 LM,不进行检索或自我反省,仅在测试时进行检索增强,它落后于 SELF-RAG。 这一结果表明,SELF-RAG 的收益并非完全来自训练数据,并证明了 SELF-RAG 框架的有效性。
Self-RAG的诞生就是为了解决这个核心矛盾:让模型自己判断什么时候需要查资料,什么时候不需要。二、什么是Self-RAG? :像个有经验的老员工,简单问题自己解决,复杂问题才求助三、Self-RAG如何工作四大反思Token机制Self-RAG的核心创新是在模型输出层面增加了一套平行的决策流。 蒸馏到小模型:先在大模型(如70B)上训练完整的Self-RAG,然后通过知识蒸馏把判断能力迁移到小模型(如7B),降低成本和延迟。多模态Self-RAG:扩展到图像、视频等多模态场景。 联邦学习应用:多个机构联合训练Self-RAG模型,共享判断逻辑但不共享具体数据,保护隐私的同时提升模型能力。六、总结与思考Self-RAG的本质是把检索从一个外部流程变成了模型推理的内生能力。 选择是否使用Self-RAG,关键看你的应用场景是否需要精细化的检索控制。如果大部分问题都是简单通用知识,传统RAG就足够了;如果问题复杂度差异大,需要动态调整检索策略,Self-RAG是更好的选择。
2.2 Self-RAG 经典的 RAG 架构中(包括 KG 进行上下文增强),对召回的上下文无差别地与 query 进行合并,然后访问大模型输出应答。 详细过程可参考我对 Self-RAG 的总结 [6]。 如图 4 所示,右侧就是 Self-RAG 的工作流程。首先,根据 query判断是否需要检索。 Self-RAG详解 一直在想两个问题:一是每次 query 时,通过向量库召回上下文是否必要。 3.2 模型推理 第一节从应用场景角度简要概括了 Self-RAG 的工作原理,本小节详细分析 Self-RAG 的推理过程。 3.2.1 自适应检索 Self-RAG 预测 retrieve token 来动态决定是否需要检索上下文。
Self-RAG Self-RAG 是更主动和智能的实现方式: 1、 判断是否需要额外检索事实性信息(retrieve on demand),仅当有需要时才召回; 2、平行处理每个片段:生产prompt Self-RAG 的重要创新 Self-RAG 的 Reflection tokens (反思字符) 通过生成反思字符这一特殊标记来检查输出。 Self-RAG模型还集成了特殊标记以控制和评估自身的预测,从而实现更精细化的产出。 Self-RAG 的推理过程 Self-RAG 通过运用反思性标记对自己的输出进行自评,这使得它在推理过程中展现出调整与适应能力。 Self-RAG 无需进一步训练即可进行自我调整与适应。
LongRAG、Self-RAG 和 GraphRAG 代表了当下工程化的技术进展,它们各可以解决不同的实际问题。 Self-RAG:让检索有自我意识 Self-RAG 有点不同。 Self-RAG 则适合对答案的准确性和可信度有较高要求的场景。假如检索出错带来的损失很大,或者查询的复杂度差异很大(有些直接能答,有些得查资料),Self-RAG 的反思机制就显出价值。 或者 Self-RAG 加 GraphRAG,用反思能力来决定图遍历的路径,什么时候往深处走,什么时候停止。 甚至可以设计三阶段的流程:先用 GraphRAG 做基于实体的初步检索,再用 Self-RAG 筛选相关性,最后用 LongRAG 组织上下文。
自反思(Self-Reflection):Self-RAG (Asai et al., 2023) 是一个与Auto-RAG相关的研究,它训练LLMs在检索和生成内容上进行反思。 与基线比较 与没有检索(Naive Gen)、单次检索(Standard RAG)和迭代检索(FLARE、Iter-RetGen 和 Self-RAG)的基线模型进行比较。 在六个基准测试中,Auto-RAG的性能一致优于其他基线方法,包括没有检索的方法(Naive Gen)、单次检索的方法(Standard RAG),以及其他迭代检索方法(如FLARE、Iter-RetGen和Self-RAG 效率比较 比较了Auto-RAG与FLARE和Self-RAG在性能、速度和检索次数上的差异。 与FLARE和Self-RAG相比,Auto-RAG在性能、速度和检索次数上展现出显著优势。 案例研究 通过一个具体案例比较了Auto-RAG和Self-RAG在处理多跳问题时的不同表现。
如果文档与查询不相关,则回退到网络搜索 自纠错 (Self-RAG[3]). 当答案具有幻觉或者未能回答问题时候,自动尝试修正答案。 agentic-rag-llama 比如你可能会问:“比较一下 adapt rag 和 self-rag,首先分析各个论文中的方法”,查询重写模块可能会将用户提问分解为: adapt rag 中的方法 Adaptive-RAG:https://arxiv.org/abs/2403.14403 [2] Corrective RAG:https://arxiv.org/pdf/2401.15884.pdf [3] Self-RAG
CRAG 和 Self-RAG 检索:探索 CRAG 和 Self-RAG 等高级检索方法,并链接到示例。 长上下文影响的探索:链接到解释长上下文检索对 RAG 模型影响的资源。
RAG能力增强 https://arxiv.org/pdf/2310.11511.pdf 本文讨论了「自我反思检索增强生成(SELF-RAG),这是一种旨在增强大型语言模型(LLM)质量和事实性的新颖框架 SELF-RAG 是一个新框架,通过按需检索和自反思来提高LLM的质量和真实性。它使用反射Token进行自评估,在各种任务中显着优于传统的LLM。该框架涉及两个组件:生成器和批评家模型。 这种训练使得 SELF-RAG 在推理过程中无需 Critic 模型即可运行,从而减少了计算开销。 在六项任务的评估结果中表明,SELF-RAG 优于经过预训练和指令调整的 LLM,包括那些具有更多参数的 LLM。
实施策略 CRITIC框架的实施通常包括以下步骤: 设计详细的评估标准和提示模板 生成初始输出 使用评论家提示评估输出 提取关键改进点 使用改进器提示生成优化版本 进行多轮迭代,直到达到质量标准 2.4 SELF-RAG 2.4.1 核心机制 SELF-RAG的核心创新在于引入了特殊的反思标记(Reflection Tokens),用于控制检索行为和评估生成内容。 模型能够根据任务输入决定是否需要检索额外信息 并行文档评估:同时处理多个检索到的文档并评估其相关性 自我反思标记:使用特殊标记来指示检索需求和内容质量 可控生成:通过反思标记控制生成过程 2.4.2 关键标记类型 SELF-RAG 2.4.3 2025年的技术进展 2025年的SELF-RAG在以下方面取得了重要进展: 多模态检索集成:支持文本、图像、音频等多种模态信息的检索和评估 实时反馈优化:根据用户实时反馈动态调整检索和生成策略 Self-Feedback” (2023) “Reflexion: Language Agents with Verbal Reinforcement Learning” (NIPS 2023) “SELF-RAG
RAG 本身都已经衍生出 Agentic RAG和 Self-RAG(这些更复杂的变体了。 答案是肯定的,无论 Agent 方法在效率和推理上做了多少改进,底层还是离不开检索。
我们引入了一个新的框架,称为自反射检索增强生成(SELF-RAG),提高LM的质量和真实性,通过检索和自我反思。 创新: 这篇论文提到了多个与SELF-RAG相关的研究领域和具体工作,主要包括以下几个方面: 1. SELF-RAG则通过在训练阶段使用批评者模型来生成反思标记,从而在推理阶段实现可控生成。 4. 检索增强的LLMs:论文还比较了SELF-RAG与使用检索增强的LLMs(如ChatGPT和Llama2-chat)的性能,展示了SELF-RAG在多个任务上的优势。 6. 这些相关工作为SELF-RAG提供了理论基础和实践背景,SELF-RAG在此基础上通过引入自我反思和按需检索的概念,提出了一种新的提高LLMs生成质量的方法。
等 迭代技术(Iterative Techniques) - 如反馈循环检索、递归检索等 高级架构(Advanced Architecture) - 如知识图谱集成、GraphRAG、RAPTOR、Self-RAG 前沿技术解析 项目中包含了多种前沿RAG技术,以下是几个特别值得关注的: Self-RAG - 一种动态方法,能够自适应地决定是否使用检索的信息以及如何最好地利用它生成响应。
ARC Challenge A multiple-choice reasoning dataset created from scientific exams Reasoning Accuracy SELF-RAG achieves an accuracy of 67.3 (7B) and 73.1 (13B) Not specified Clark et al. (2018) Science Self-RAG: training but performance not specified 15,535 instances Kwiatkowski et al. (2019) General Knowledge Self-RAG Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. arXiv:2310.11511. PubHealth 公共卫生领域事实核查 SELF-RAG 达到 74.5% 准确率。 StrategyQA 需要隐式推理的多跳事实核查 IAG-GPT 达到 72.9% 准确率。
循环式: 迭代检索和生成(例如Self-RAG、FLARE)。
类似的方案有SELF-RAG,不过它是把路由融合在了模型推理的过程中,整体复杂度太高,可用性就有些低了。所以我们看下Adaptive-RAG的外挂路由的方案。 Expert: Efficient Reward-guided Ensemble of Large Language Models动态RAG(When to Search & Search Plan)SELF-RAG
需与`Self-RAG`或`RAG-Fusion`等检索增强策略联动; - 合规红线需人工兜底:所有开源工具均无法替代法务对‘不得承诺投资收益’‘不得替代医生诊断’等强监管条款的终审。