简单来说,RAG系统通过结合语言模型和外部知识库来生成更准确的回答,但之前的研究并没有深入探讨哪些因素(比如模型大小、提示设计、知识库大小等)对系统性能的影响最大。 RAG系统的应用: Lewis et al. (2020) 提出了将外部知识源集成到推理过程中的RAG模型,确保生成的信息是最新且准确的。 RAG系统的评估: Semnani et al. (2023) 和 Chang et al. (2024) 研究了大型语言模型(LLMs)生成不准确信息的问题,并探讨了RAG系统如何解决这一问题。 设计RAG系统变体: 基于这些研究问题,论文设计了多种RAG系统的变体,包括查询扩展模块、检索模块和文本生成模块。 通过这些步骤,论文系统地研究了RAG系统的架构,并提出了具体的改进措施,为开发和优化RAG系统提供了实证基础和理论支持。 论文做了哪些实验?
本文要做的就是用 LangGraph 做流程编排、Redis 做向量存储,搭一个生产可用的 Agentic RAG 系统。涉及整体架构设计、决策逻辑实现,以及状态机的具体接线方式。 系统架构拆解 整个系统拆成六个模块: 配置层负责环境变量和 API 客户端的初始化工作。Redis 连接串、OpenAI 密钥、模型名称全部归拢到这里统一管理。 系统不会因为一次检索失败就直接给出一个牵强附会的答案,它会调整策略重新尝试。 这个环节的价值在于拦截那些本会导致标准 RAG 胡说八道的情况,与其硬着头皮从不靠谱的上下文里编答案,不如给系统一次修正查询的机会。 总结 标准 RAG 把检索当黑盒,查询丢进去、文档出来,至于相不相关全凭运气。Agentic RAG 打开这个黑盒在关键位置加了质量控制。
但一个严峻现实正浮出水面:某头部银行上线的RAG客服系统在灰度阶段遭遇37%的‘幻觉响应率’(即答案看似合理却与检索源矛盾),而其测试团队仍沿用传统API+UI自动化脚本覆盖逻辑,漏测率达68%。 RAG系统本质是‘检索+生成’双引擎耦合体,其质量风险分布远超传统软件: - 检索层失效:向量数据库召回不相关文档(如语义漂移、分块粒度失当)、元数据过滤逻辑错误、多跳检索链断裂; - 生成层失准:LLM 时,系统正确召回3份PDF,但LLM将其中一份PDF页眉的‘草案版’误读为生效条款,导致金额计算偏差达42%。这类缺陷无法通过接口状态码或UI元素定位捕获——它藏在语义层面。 结语:测试的终极价值不是‘发现多少Bug’,而是‘守护多少信任’ RAG不是另一个待测系统,它是人机协作的新契约界面。当用户向AI提问时,他交付的不仅是query,更是对专业性的托付。 测试团队的转型,表面是技能升级,内核是角色进化——从保障功能正确,到捍卫事实可信;从验证系统行为,到审计认知过程。
在啄木鸟软件测试团队服务的17家金融与政务客户中,超63%的RAG项目因缺乏系统化测试方案,在上线后3个月内遭遇知识召回率骤降、政策问答误答率超标或审计合规风险暴露。 一、RAG系统测试的三大认知跃迁 1. 从「功能正确」到「事实可信」 RAG的本质是“检索+生成”双阶段协同,测试必须解耦验证:检索模块是否召回了最相关文档片段?生成模块是否忠于检索证据、未引入虚构? 我们曾发现某省级政务问答系统在回答“社保补缴流程”时,生成内容准确,但所依据的召回文档实为2019年已废止的旧版文件——功能无误,事实失信。 Step 3:混沌工程注入「现实噪声」 RAG系统最脆弱点常在边缘场景:PDF解析错位导致表格文字断裂、OCR识别将“2023年”误为“2028年”、向量库冷热数据混布引发召回漂移。 仅通过此测试的系统,上线后知识幻觉率下降58%(某保险客户A/B测试数据)。
然而,最近在 RAG系统中的发现,突显了基于 RAG 的大型语言模型的问题,例如 RAG 系统中偏差的引入。 RAG 系统中偏差的概述 RAG是一种人工智能技术,通过整合外部来源来增强大型语言模型。它允许模型对其产生的信息进行事实核查或校对。 如果 RAG 系统引用的外部数据集未经开发者消除偏差和刻板印象,则可能会嵌入偏差。 这些嵌入捕获了文本的语义含义,RAG 系统使用它们从知识库中获取相关信息,然后再生成响应。考虑到这种关系,研究表明,反向偏置嵌入器可以消除整个 RAG 系统的偏差。 最后,研究人员得出结论,大多数消除偏差的努力都集中在 RAG 系统的检索过程上,正如之前讨论的那样,这是不够的。
因此,在享受 RAG 带来的便利的同时,也需要采取相应的措施来防范潜在的安全问题。 2. RAG 的安全威胁 基于 RAG 的系统面临三大主要威胁: 2.1. 例如,攻击者可能通过这种方式植入广告、钓鱼链接,甚至破坏系统正常功能。更严重的是,这类污染会影响大量用户,造成连锁反应。 2.2. 信息泄露 RAG 系统存储的知识库可能包含敏感信息。 系统瘫痪风险(DDoS) RAG 对大规模知识库的检索需要大量计算资源。如果系统设计存在漏洞,攻击者可能通过发送海量请求耗尽服务器资源,导致服务变慢甚至完全停摆。 系统配置:如果多个用户共享同一个 RAG 系统(比如不同客户共用一个知识库),但配置不当,可能会导致数据泄露。例如,一个客户的资料被错误地展示给另一个客户。 对AI Agent的影响:如果 RAG 系统为其他 AI 提供决策依据,攻击者可能通过篡改数据误导 AI 执行危险操作,比如调用错误的工具。 这些因素相互关联,共同决定了 RAG 系统的安全水平。
在之前的案例视频中我们演示了使用Milvus向量数据库和腾讯向量数据库实现RAG的场景应用。 今天我们演示下利用ES的向量数据存储能力来实现RAG,包括三个部分:连接ES数据库并建表;数据写入ES向量数据库流程;问答对话流程。 整个流程的其他创建过程可参考如下视频:《轻松玩儿转数据分析系列-低代码玩转LLM-RAG》上图是用Milvus数据库实现的,现在将其替换为ES算子,如下 选择ES写出算子替换掉Milvus写出算子后
甚至可以说,随着组织推动 AI 系统处理日益复杂和关键的任务,这些问题变得更加突出了。核心挑战依然是:我们如何将强大的生成式模型与公司所依赖的海量知识库连接起来? MCP 简化了 Agent 与 RAG 系统(及其他工具)的集成 我们在生产环境中看到的最复杂的 AI 系统结合了这些方法,根据各自的优势来使用每种工具,而不是宣布某一个获胜并将其他工具抛弃。 它们服务于不同的目的,并作为一个系统协同工作。RAG、微调和大型上下文窗口在 AI 中也是如此。 结论 我们不需要在 RAG 与长上下文窗口、微调或 MCP 之间做出选择。 这个网站将作为一个活生生的证明,展现检索在 AI 系统中持久的重要性,并且每当下一波“RAG 已死”的帖子不可避免地出现时,它都会更新。 如果你的系统无法利用你的专有数据,持续提供过时信息,或者缺乏你所需的专业知识,那么让我们谈谈。我们构建了一个将智能检索与前沿 LLM 相结合的系统,来解决这些长期存在的难题。
【RAG】001-RAG概述 0、整体思维导图 下面的知识是基于一个视频教程结合 AI 生成的笔记,我也看了一遍,有了一些印象,但这种印象很快就会消失,知识也就消失了,为了使得知识在我的大脑中停留更长的时间 补充1:RAG 基本逻辑 补充2:RAG 知识库基本逻辑 一、RAG 介绍 1、LLM 的主要局限性 大语言模型(LLM)尽管功能强大,但仍存在以下明显的局限性: 时效性问题:模型的知识在预训练后就固定了 概述 1、RAG 的概念 RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了检索和生成技术的文本处理方法,主要用于提高语言模型的输出质量。 系统时,需要注意以下几点: 数据质量控制: 确保知识库数据的准确性和时效性 定期更新和维护知识库内容 建立数据质量审核机制 性能优化: 选择合适的向量数据库 优化检索策略和参数 合理设置缓存机制 系统监控: 跟踪系统响应时间 监控检索准确率 收集用户反馈并持续优化 三、RAG vs Fine-tuning(微调) 1、两种方法的基本概念 RAG: 通过实时检索相关信息来增强模型输出
在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。 什么是RAG 在人工智能领域,检索增强生成(retrieve - augmented Generation, RAG)作为一种变革性技术改进了大型语言模型(Large Language Models)的能力 与微调和再训练不同,RAG提供了一种经济高效的解决方案,允许人工智能在不改变整个模型的情况下能够得到最新和相关的信息。 RAG通过允许组织对生成的文本输出有更大的控制,解决了对偏差、可靠性和遵从性的关注。 3、减轻幻觉: LLM容易产生幻觉反应——连贯但不准确或捏造的信息。 RAG通过确保响应以权威来源为基础,减少关键部门误导性建议的风险。 4、具有成本效益的适应性: RAG提供了一种经济有效的方法来提高AI输出,而不需要广泛的再训练/微调。
本文从0到1系统讲解RAG的核心原理、系统结构及落地步骤,帮助读者构建一个可用、可扩展的RAG检索增强系统,为智能体和企业级AI应用提供可靠基础。 目录一、什么是RAG二、为什么需要RAG三、RAG系统核心架构四、从0到1搭建RAG系统五、一个典型RAG流程示例六、常见问题与优化经验七、总结一、什么是RAGRAG(检索增强生成)是一种将信息检索与文本生成结合的技术框架 三、RAG系统核心架构一个标准RAG系统通常包含以下模块。1.文档处理模块负责数据准备:文档清洗分段切分去噪处理高质量数据是RAG效果的基础。 四、从0到1搭建RAG系统下面给出一个通用落地路线。第一步:确定应用场景先明确目标:客服问答企业知识库文档助手智能搜索场景不同,设计重点不同。 从0到1构建RAG系统,核心在于:1️⃣高质量数据2️⃣合理检索策略3️⃣清晰Prompt约束当这三点做到位,RAG系统即可在真实业务中发挥稳定价值。
RAG技术结合了检索系统和生成模型的优势,旨在提高回答问题和生成自然语言文本的准确性和一致性。 RAG工作流程 RAG的工作流程可以分为以下几个步骤: 用户查询:用户提出一个查询,系统首先会将这个查询传递给检索模型。 信息检索与问答系统 在信息检索和问答系统中,RAG技术可以显著提高系统的准确性和用户满意度。传统的问答系统通常依赖于检索模型找到相关文档,然后从这些文档中抽取答案。 RAG技术可以在知识图谱构建过程中发挥重要作用。通过利用检索模型从大规模文档库中找到最新的相关信息,RAG系统可以识别出新的实体和关系。 实时性和响应速度:尽管RAG技术在生成准确答案方面有显著优势,但其双阶段流程可能会影响系统的实时性和响应速度。这对于需要即时回答的应用场景(如在线客服、实时问答系统)提出了更高的要求。
之前介绍了在RAG系统中使用混合检索,而混合检索将不同的检索技术的优势,如向量检索适合语义模型匹配,而关键词检索适合精准匹配。将不同的优势结合互补单一检索的劣势,获得更好的召回结果。 引入重排序是对现有RAG系统的一种增强,无需进行重大改造,以一种简单且低复杂度的方式改善RAG系统的回答效果。
引言:RAG已进入‘可信性临界点’ 2026年,检索增强生成(RAG)系统正从PoC走向规模化落地——金融风控文档问答、政务知识中枢、医疗辅助诊断等场景中,RAG不再是‘锦上添花’,而是业务连续性的关键链路 据啄木鸟软件测试实验室2025Q4《RAG生产事故白皮书》统计,73%的RAG线上故障源于测试盲区,而非模型本身。 例如某省级医保政策问答系统中,用户问‘门诊慢特病报销比例’,系统检索出2023年试点文件(已废止),召回率100%,但语义相关性熵值高达0.89(理想≤0.2)。 在某银行信贷FAQ系统测试中,它成功捕获一条高置信度幻觉回答——‘LPR加点可协商’,实际政策明确禁止加点浮动,该结论未在任一检索文档中出现,且TruEra自动回溯至原始PDF第17页脚注,实现根因可追溯 四、安全与合规:内置监管沙盒,不止于红队测试 2026年,国内《生成式AI服务安全评估要求》(GB/T 44512-2026)正式实施,明确要求RAG系统需通过‘敏感信息泄露路径审计’和‘知识边界越界检测
您听说过 RAG Logger 吗? 它是一款专为检索增强生成 (RAG) 应用程序设计的开源日志记录工具! 据说它可以作为 LangSmith 的轻量级替代方案,满足 RAG 特定的日志记录需求。 查询、搜索结果、LLM 交互和性能指标可以以 JSON 格式记录。 特点 通过查询跟踪详细了解用户问题! RAG Logger 为 RAG 应用程序的性能监控和调试提供了强大的支持,对吗? 特别推荐给那些想要提高应用程序开发效率的人。 请参阅此处的详细信息: RAG Logger GitHub 仓库
在预处理阶段注入这个上下文有助于确保 RAG系统中的这种区别能够提供准确的响应。 例如,考虑一个风险基金的 RAG 系统。 例如,考虑一个企业 RAG 系统,如果希望为每个办公室的每个员工、团队或部门定制响应。当生成一个答案时,RAG 系统可以咨询 知识图谱,以了解哪些块包含基于用户角色和位置的最相关信息。 一旦 RAG 系统确定了与该特定用户最相关的数据,它还可以确保该用户确实拥有访问该数据的权限。 3.一个用例 用医学领域的一个例子来进一步阐述RAG系统中如何应用知识图谱。 然后可以采取以下步骤,以知识图谱增强RAG 系统。我们不认为每个 RAG 系统都必须需要以下所有步骤,但这些用例在复杂的 RAG 用例中相对常见。
02 崖山智能问答系统:DeepSeek + RAG优化崖山数据库(YashanDB)引入检索增强生成(RAG)框架,将DeepSeek的语言能力与外部知识库结合,构建崖山智能问答系统,为DBA提供精准高效的决策支持 基于DeepSeek + RAG 搭建的崖山智能问答系统可以为 DBA 提供以下方面的赋能:快速找到关于数据库配置、命令和错误消息的技术问题的答案。通过访问相关的文档和知识库来排除常见的数据库问题。 值得一提的是,为解决传统单一知识库架构的局限性、检索质量及效率难题,YashanDB智能问答系统知识库进行了一系列的RAG系统优化,通过引入了基于大模型的语义解析技术、重排序、查询转换实现高效的知识检索和精准的回答能力 结果重排 在RAG系统中,检索至关重要。为高效检索,通常采用向量搜索,即将文本转为向量,比较与查询向量的相似性。然而,向量搜索易丢失信息,导致最相关文档可能遗漏关键信息,尤其当信息靠后时。 注:图片来源于Advanced RAG Techniques: Unlocking the Next Level, Tarun Singh目前,崖山智能问答系统在多个场景中展现出出色的性能和广泛的应用价值
摘要 RAG系统正逐步革新我们对AI驱动信息处理的认知。为充分发挥其潜力,理解其基本原理至关重要。本文旨在简明扼要地解析RAG系统,期望为读者提供洞见与共鸣。 什么是RAG系统? RAG系统的工作方式 RAG系统的架构宛如一条精密的流水线,各模块协同工作,确保信息处理的流畅与高效。 这种设计使得RAG系统能够动态引入相关数据,显著提升回应的准确性和相关性。 RAG系统的优势 RAG系统的优势如下: 实时信息检索:集成外部知识源,确保回应的时效性和相关性,满足用户对最新信息的需求。 准确性提升:精确的数据获取机制,减少错误,提高事实准确性,增强用户信任。 例如,在在线教育领域,RAG系统可以根据学生的实时学习情况和需求,提供个性化的学习资源和建议;在医疗领域,RAG系统可以辅助医生进行疾病诊断和治疗方案的制定;在金融领域,RAG系统可以为用户提供实时的市场分析和投资建议等
题目是:C-RAG:如何构建一个可信的联邦检索RAG系统。 Clinical Question-Answering over Distributed EHR Data (Jiang, 2024) 提出了使用联邦RAG进行临床问答的系统,利用LLM进行临床问题回答 提出的系统采用了分层设计的联邦文档检索,实现了对分布式临床数据的高效和安全访问。作者还引入了一个新的基于MIMIC-IV数据库的数据集,专门用于评估临床问答系统。 这些相关工作展示了RAG系统在联邦学习背景下的不同应用和研究方向,包括联邦搜索策略的优化、模型选择、隐私保护和法规合规性,以及在临床问答中的应用。 总结讨论 论文讨论了C-FedRAG在处理跨多个数据提供者的问题时面临的限制,包括数据隐私、控制和安全性的挑战,以及在企业环境中部署联邦RAG系统时需要解决的身份和访问管理问题。
分块优化 选择正确的chunk_size是一个关键的决定,它可以在几个方面影响RAG系统的效率和准确性: 相关性和粒度 较小的chunk_size,如128,产生更细粒度的块。 虽然这可以确保更全面的上下文,但它也可能减慢系统响应的速度。 考虑到搜索查询通常很短、模棱两可或缺乏必要的背景信息,LLM可以提供相关信息来指导检索系统,因为它们通过对数万亿个token进行预训练来记忆大量的知识和语言模式。 微调嵌入模型 微调嵌入模型会显著影响RAG系统中检索内容的相关性。该过程包括自定义嵌入模型,以增强特定领域上下文中的检索相关性,特别是对于持续更新或存在罕见术语的专业领域。 混合搜索探索 RAG系统通过智能集成各种技术来优化其性能,包括基于关键字的搜索、语义搜索和向量搜索。