首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏【腾讯云开发者】

    RAG优化字典:20种RAG优化方法全解析

    关注腾讯云开发者,一手技术干货提前解锁 本文系统性地梳理了 RAG(Retrieval-Augmented Generation,检索增强生成)系统从基础到高级的 20 种优化方法,涵盖分块策略、检索增强 、查询优化、生成质量控制等多个维度。 (query, vector_store, feedback_data, k=5, model="gpt-3.5-turbo"): """ 完整的RAG管道,结合反馈循环。 19 CRAG 系统 动态评估并纠正检索质量 20 RL增强RAG 系统 强化学习优化全流程 优化方法选择指南 分块优化:检索不够精准时,优先考虑语义分块(1)、命题分块(13)或切块大小评估 检索增强:融合检索(15)性价比高、易落地;图RAG(16)适合概念与关系密集的领域。 查询优化:HyDE(18)对短查询、抽象问句效果好;查询转换(6)适合复杂、多子问题查询。

    96011编辑于 2026-03-06
  • 来自专栏RAG

    RAG系列:#5 RAG中的11种分块策略

    7个指标让你的准确率大幅提升RAG评测完整指南:指标、测试和最佳实践收藏! RAG核心工具大全:7大解析工具+向量模型+数据库+检索排序GraphRAG开源生态全景:6大主流开源项目,微软/蚂蚁/港大项目同台PK检索增强生成(RAG)将LLM与信息检索系统相结合,以生成更准确、 本文将详细介绍每种分块方法,比较不同的分块策略,探讨如何选择合适的分块策略,并了解在RAG中实施分块的**最佳实践。 利用LLM的理解能力创建有意义的块适应性强:能够有效处理多样化和非结构化的内容挑战:计算密集型:处理整个文档需要大量资源成本:由于计算成本,可能不适用于大规模应用实施技巧:对关键文档有选择地使用主体分块优化 中分块实施的最佳实践监控代码块大小:确保代码块保持在语言模型的标记限制内保持原意:避免随意拆分句子或逻辑单元优化检索:使用适合分块策略的高效索引和检索机制处理冗余:实施去重以管理重叠内容广泛测试:使用特定数据和查询评估不同的策略

    18410编辑于 2026-05-27
  • 来自专栏自然语言处理

    5个开源RAG框架对比

    还在为RAG应用开发头疼吗?别急,今天给大家推荐五款完全开源免费的RAG框架,覆盖自动优化、多模态处理、本地部署、生产环境支持等多种场景,助你轻松搞定RAG开发! 1. AutoRAG:自动优化,省心省力 核心优势:自动寻找最优RAG流程,告别手动调参! ✨ 特色功能:支持用你的评估数据测试不同RAG模块,找到最适合的方案。 适用场景:适合需要优化RAG系统性能的开发者。 https://github.com/Marker-Inc-Korea/AutoRAG 2. 适用场景:适合企业级应用部署,需要稳定可靠的RAG框架。 https://github.com/truefoundry/cognita 5. ✨ 特色功能: 提供50+针对企业任务优化的小型模型 支持完整的RAG生命周期 适用场景:适合企业环境中需要专业化、轻量级解决方案的场景。

    4.1K11编辑于 2024-12-31
  • 来自专栏自然语言处理

    RAG最新研究】优化RAG系统的最佳实践与深度解析

    利用 Flan-T5 等生成模型创建增强查询(Raffel et al., 2020)。 例子) 最初询问:“COVID-19 有哪些症状?” RAG有哪些相关研究? 在RAG领域,已经有不少研究为这篇论文奠定了基础。 RAG系统的优化: Wang et al. (2024) 提出了优化检索组件的策略,比如改进文档索引和检索算法,以减少延迟并保持准确性。 通过这些步骤,论文系统地研究了RAG系统的架构,并提出了具体的改进措施,为开发和优化RAG系统提供了实证基础和理论支持。 论文做了哪些实验? RAG方法的具体实现:包括使用T5模型进行查询扩展、FAISS用于向量索引和相似性搜索、Sentence Transformer作为文本编码器等。

    1.2K10编辑于 2025-01-16
  • 来自专栏云云众生s

    RAG和模型优化:AI实用指南

    AI工程实践指南:探索LLM/SLM集成,利用MoE和Co-LLM优化代码生成。RAG提供可扩展替代方案,避免静态微调,提升代码质量。 ,同时平衡模型选择、性能优化、安全性和成本效益。 集成 LLM 和 SLM 通过利用两者的优势,将小型语言模型 (SLM) 和大型语言模型 (LLM) 集成到软件工程任务中,可以优化效率。 这种方法通过将较简单的任务分配给较小的模型,将复杂的任务分配给较大的模型来优化效率。 在 AI 软件开发平台中部署 LLM 并使用 RAG 对其进行增强可以提高准确性,消除幻觉并优化资源效率。

    43200编辑于 2025-03-16
  • llm与RAG的学习与优化

    本文首发个人博客:llm与RAG的学习与优化 - 黑白の世界欢迎点击,评论前言这是一篇拖延了半年的文章。 构造Prompt(相似文档 + 原始问题)    LLM模型-->>RAG程序: 生成最终答案    RAG程序-->>用户: 5. 返回答案向量搜索是匹配,不是提问这是一个需要注意的点。 预处理:优化数据质量分块 (Chunking)将文档切分成合适的、独立的语义单元是RAG中最关键的第一步。分块的质量直接影响向量的质量和检索的精度。**为什么需要分块? 这是提升RAG效果最有效的手段之一。结语以上内容大概就是笔者最近在大模型学习,RAG开发与特定领域向量数据库构建业务中的一些总结与优化心得。同时不禁感叹,大模型从22年到如今的发展迅速。 可以看到本文在谈到RAG调优的格式突然有些变化。因为到这里笔者有些懒了,手写了思路与大纲后,直接让AI优化,然后再手改一番。本文还只是单纯的 RAG知识库,或者说向量数据库的相关技术点。

    65610编辑于 2025-09-01
  • 来自专栏自然语言处理

    RAG5个常见错误

    向量数据库并非硬性规定 几乎互联网上所有关于RAG的教程都使用向量存储。如果你一直在搜索RAG相关内容,你就会明白我们在说什么。 基于向量的检索无疑是RAG成功的重要因素。 RAG可以从互联网、关系型数据集、Neo4J中的知识图谱,或者这三者的组合中检索信息。 在许多情况下,我们注意到混合方法往往能带来更好的性能。 对于客户聊天机器人,你可能需要授予RAG访问部分客户数据库的权限,这可能是一个关系型数据库。 公司的知识管理系统可能会创建知识图谱并从中检索信息,而不是使用向量存储。 但是,检索过程本身也可以优化。 检索过程可以更先进 最直接的检索过程是直接查询。 如果你使用向量数据库,可以对用户输入进行语义搜索。否则,你可以使用LLM生成SQL或Cipher查询。 分块是RAG中最具挑战性和最重要的部分 当上下文中包含不相关信息时,LLM往往会失控。 防止RAG中出现幻觉的最佳方法是分块。 现代LLM可能支持更长的上下文长度。

    32510编辑于 2025-04-26
  • 来自专栏具身小站

    大模型优化技术(RAG 和 LoRA)对比

    RAG 和 LoRA 是优化大模型的两种主流且互补的技术, LoRA 是给模型“大脑升级”的技能插件,RAG 是给模型“大脑联网”的外挂知识库, 分别从“模型能力”和“知识获取”两个不同维度,来解决让通用大模型变得更专业的问题 工作原理 RAG的工作流程分为两步: 检索和生成 。 检索 :收到问题时,RAG首先将问题转化为向量,在知识库(如公司内部文档)中搜索最相关的信息片段。 RAG就像是 给大脑配一个秒查资料的"超级助理", 遇到问题时,大脑不自己回忆,而是先让助理去查资料,再将查到的信息一起思考后回答。 RAG的核心优势在于处理 需要大量、最新、具体事实信息 的场景。 因此,建议 以LoRA为主,RAG为辅 。 并行组合 :设计一个决策器来判断任务类型, 对深层任务调用LoRA模块,对知识性任务调用RAG流程 。同时,LoRA生成的结果可作为RAG的检索源,形成正向循环。

    20910编辑于 2026-05-22
  • RAG 2.0 的索引与召回机制优化

    很多做RAG的朋友可能都有过这样的经历:兴冲冲地把系统搭起来满怀信心地让它回答几个问题,结果它要么答非所问,要么一脸无辜地说"抱歉我不知道"。 今天我们就来聊聊RAG 2.0在索引与召回机制上的优化思路,看看怎么才能让RAG真正派上用场。 向量召回的困境与破局之道 向量召回命中率低这个问题,说起来简单,真正解决起来却让人头疼。 未来重排序很可能成为RAG系统的标配组件,就像现在全文索引是必备的一样。 值得注意的是,延迟交互这条路还在快速发展。 结语 RAG 2.0的索引与召回机制优化,本质上是在效果和效率之间找平衡。 多路召回解决了单一检索方式的局限,张量排序在保持效果的同时提升了效率,文档预处理则为整个系统打下了高质量的数据基础。 RAG技术还在快速演进,但无论怎么变,扎实的基础功永远是关键,是吧?

    36410编辑于 2026-02-28
  • 来自专栏Linyb极客之路

    RAG 的检索模块是怎么优化的?

    RAG(Retrieval-Augmented Generation)中的检索模块是整个系统的关键环节,直接影响生成结果的质量。为了提升检索的准确性、相关性和效率,业界采用了多种优化策略。 以下是 RAG 检索模块的主要优化方法: 一、向量检索优化 更优的嵌入模型(Embedding Model) 使用领域微调的嵌入模型(如 BGE、E5 等),比通用模型(如 Sentence-BERT) 四、索引与架构优化 分块策略优化 合理的文本分块大小(如 256-512 tokens)。 使用滑动窗口重叠分块,避免信息割裂。 基于语义边界(如段落、标题)进行智能分块。 基于反馈的持续优化 利用用户反馈或生成结果质量信号,迭代优化检索模型或策略。 ,RAG 的检索模块能够更精准地找到与用户问题相关的上下文,为生成模块提供高质量输入,从而显著提升整体系统表现。

    34310编辑于 2026-04-14
  • 来自专栏掘金安东尼

    再靠近亿点点,RAG 优化策略

    本篇来看下 RAG 的架构优化策略 利用知识图谱(KG)进行上下文增强 在现有的向量数据库中,典型的上下文增强可能面临挑战:难以捕捉长距离的关联知识,信息稀疏性高(尤其是当LLM上下文窗口有限时)。 + 一个片段的生成结果; 3、使用反思字段,检查输出是否相关,选择最符合需要的片段; 4、再重复检索; 5、生成结果会引用相关片段,以及输出结果是否符合该片段,便于查证事实。 Self-RAG 的推理过程 Self-RAG 通过运用反思性标记对自己的输出进行自评,这使得它在推理过程中展现出调整与适应能力。 模型可根据具体任务进行定制化调整,它通过增加检索的文段数量来优化对事实准确性的重视,或是在开放性任务中突出创新能力。此模型能决定何时进行文段的检索,或者依据预设的阈值来启动该过程。 小结 本篇文章介绍了 RAG 的架构优化策略,主要包括利用知识图谱进行上下文增强以及让大模型对召回结果进行筛选的方法。

    1.1K10编辑于 2024-04-13
  • 来自专栏菩提树下的杨过

    langchain4j 学习系列(5)-RAG

    继续我们的langchain4j之旅,今天来看看RAG如何实现,“RAG萌宠新手盆友们”建议先看看B站大佬的视频RAG 工作机制详解—哔哩哔哩_bilibili,核心步骤就是下面这3张图: 最简单的RAG prompt_eval_count":11} 3、重排/生成 private interface Assistant { String chat(String userMessage); } /** * 基于RAG "done_reason":"stop","total_duration":1059949995,"prompt_eval_count":21,"eval_count":22} 从日志上看,先做了1次RAG

    37610编辑于 2025-12-24
  • 来自专栏AIGC大模型应用

    RAG性能优化杀器,引入上下文检索!

    但传统 RAG 系统有一个显著的局限:它们往往破坏上下文。传统 RAG 中的上下文问题在传统 RAG 中,文档通常被拆分为较小的块,以便于检索。 我们尝试了 5、10 和 20 个块,发现 20 个块是最有效的选项,但值得根据你的用例进行实验。始终进行评估:通过传递上下文化的文本块并区分上下文和块内容,生成的响应可能会得到改进。 我们的实验表明,跨多个领域,添加重新排序步骤进一步优化了检索。具体而言,我们发现,重新排序后的上下文嵌入和上下文 BM25 将前 20 个块检索未命中率降低了 67%(5.7% → 1.9%)。 以下是我们的发现摘要:嵌入+BM25 优于仅使用嵌入;Voyage 和 Gemini 是我们测试过的最佳嵌入模型;向模型传递前 20 个文本块比传递前 10 个或前 5 个更有效;为文本块添加上下文极大地提高了检索准确性 关于前 10 和前 5 个检索结果的细分以及每个数据集的示例问题和答案,请参见附录 II。参考:文本块拆分策略的进一步阅读,参考此链接和此链接。

    1.2K11编辑于 2024-10-02
  • 来自专栏DeepHub IMBA

    RAG流程优化(微调)的4个基本策略

    在本文中,我们将介绍使用私有数据优化检索增强生成(RAG)的四种策略,可以提升生成任务的质量和准确性。 通过使用一些优化策略,可以有效提升检索增强生成系统的性能和输出质量,使其在实际应用中能够更好地满足需求。 RAG简单回顾 RAG主要有两个过程。 我们先总结RAG过程中的可以优化的关键点: 1、分块方法:优化块大小确保有意义和上下文相关的数据段。 2、嵌入模型:选择和微调模型以改进语义表示。 3、向量搜索方法:选择有效的相似度量和搜索参数。 我们探讨了四种关键优化方向:细化分块方法、选择和微调嵌入模型、选择有效的向量搜索方法以及制作精确的提示。这些组件中的每一个都在提高RAG系统的性能方面起着至关重要的作用。 优化RAG的过程是需要持续的测试的,从失败中学习,以及做出明智的调整。需要采用迭代方法,才能定制出适合自己的AI解决方案,更有效地满足特定需求。

    2.3K10编辑于 2024-07-01
  • 来自专栏AI智能体从入门到实践

    构建AI智能体:优化 RAG 检索精度:深入解析 RAG 中的五种高级切片策略

    前面几篇文章已经深入讨论过LangChain、RAG架构的细节,对RAG有了基础的了解,今天重点梳理一下RAG的切片策略;一、什么是RAG切片 给定一个场景,我们有一本非常厚的百科全书 所以,到底什么是RAG切片? RAG切片就是把一份长长的文档(如PDF、Word),合理地切割成一个个小块(Chunks)的过程。 这个过程是整个RAG系统的基石,它直接决定了后续检索和生成答案的质量。 LLM语义块 5 (长度: 54): 生日福利需在官方渠道登记,可获赠生日徽章和甜品券。半年内有效结婚证持有者可购买特别套票,含皇家宴会厅双人餐。 运行你的RAG管道,评估答案的质量。评估答案是否准确?检索到的上下文是否真正相关? 迭代优化:选择效果最好的那种策略。

    1.8K32编辑于 2025-11-11
  • 来自专栏云云众生s

    影响生产RAG流水线5大瓶颈

    这些是可能阻碍RAG流水线在生产LLM环境中性能的主要潜在瓶颈。 译自 5 Bottlenecks Impacting RAG Pipeline Efficiency in Production,作者 Janakiram MSV。 通过这样做,RAG显著提高了生成响应的事实准确性和可靠性,尤其是在需要精确或最新信息的情况下。 RAG以其增强语言模型知识的能力脱颖而出,使其能够产生更准确、上下文感知和可靠的输出。 向量数据库中的相似性搜索算法 向量数据库中相似性搜索算法的效率对于RAG中的语义搜索和文档检索等任务至关重要。 优化索引和选择正确的算法显著影响查询处理机制。 这些算法可以利用领域特定的见解来优化搜索和索引策略,为不同数据集和应用的独特要求提供定制方法。

    67010编辑于 2024-03-28
  • 来自专栏Datawhale专栏

    RAG 作者:RAG 已死,RAG 万岁!

    一个具有更大上下文窗口的新模型问世,社交媒体上便会充斥着“RAG 已死”的宣言。 该 LinkedIn 帖子: 一些值得注意的 RAG“死亡宣告”包括: 2023 年 5 月:Anthropic 的 Claude,上下文窗口达 10 万 token 2024 年 2 月:Google 底线是:您同时需要长上下文 LLM 和 RAG。 但既然“RAG”这个术语似乎如此具有争议性,那我们不妨这样说: 我们不必非得称之为 RAG。 我们可以就叫它 检索 (retrieval)。 RAG 提供了相当于直接翻到相关页面的能力。处理更多 token 不仅更慢,而且极其低效,并且比使用 RAG 精准定位所需信息要昂贵得多。 RAG、微调和大型上下文窗口在 AI 中也是如此。 结论 我们不需要在 RAG 与长上下文窗口、微调或 MCP 之间做出选择。

    82810编辑于 2025-04-24
  • 来自专栏mathor

    枚举+优化5)——双指针优化1

    从上面的代码我们能看出时间复杂度是O(N^2^) 双指针优化  在某些情况下,根据题目要求,j下标并不需要从i+1重新往后枚举一遍,而是跟随着i向后移动,j也向后移动 ?   ,x + k - 1) return x + k - 1  以题目样例为例,由于k=5,现有最大整数是13。 Hashtable.find(i) need_card++; return need_card <= M  这样整个算法的时间复杂度是O(PK),P是这个数组的最大值,所以有可能有10^8^这么大,K最大10^5^ ,显然会超时 优化1  第一个能优化的地方是对于X的枚举,也就是顺子开头的数值。 ,X+K) 优化2  第二个可以优化的地方就是判断能不能凑出X开头的顺子。我们利用双指针可以把这一步均摊时间复杂度降到O(1)。

    69030发布于 2018-06-19
  • 来自专栏全栈开发工程师

    RAG】001-RAG概述

    补充1:RAG 基本逻辑 补充2:RAG 知识库基本逻辑 一、RAG 介绍 1、LLM 的主要局限性 大语言模型(LLM)尽管功能强大,但仍存在以下明显的局限性: 时效性问题:模型的知识在预训练后就固定了 系统时,需要注意以下几点: 数据质量控制: 确保知识库数据的准确性和时效性 定期更新和维护知识库内容 建立数据质量审核机制 性能优化: 选择合适的向量数据库 优化检索策略和参数 合理设置缓存机制 系统监控: 跟踪系统响应时间 监控检索准确率 收集用户反馈并持续优化 三、RAG vs Fine-tuning(微调) 1、两种方法的基本概念 RAG: 通过实时检索相关信息来增强模型输出 : 格式化输出 添加引用来源 质量检查 3、性能优化策略 3.1 检索优化 索引优化: 选择合适的索引算法 定期重建索引 优化检索参数 缓存策略: 热点查询缓存 结果集缓存 智能预加载 资源调优: 硬件配置优化 负载均衡 服务扩缩容 4、图示

    86510编辑于 2025-03-25
  • 来自专栏多模态 / RAG / 知识图谱

    RAG 系列 02 — Advanced RAG

    配套阅读:《RAG系列01—NaiveRAG》《从NaiveRAG到AgenticRAG》引言:2025年3月,我参加了一家toBSaaS公司的技术评审会。那天的议题是"RAG系统下一阶段升级路线"。 CEO听完,问了一个问题:"我们现在的RAG,hit@5是多少?"技术负责人愣住了,转头问算法工程师。算法工程师翻了一下电脑,回答:"我们……没系统跑过这个指标。" 每一阶段:有独立的优化目标有独立的评测指标有独立的失败模式可以独立替换和升级它在NaiveRAG的"线性三段式"基础上,明确划分三个新阶段:Pre-Retrieval(检索前)、Retrieval(检索 模型,几乎是ROI最低的优化Hybrid+Reranker组合的收益,远大于单独使用任何一个这就是为什么我说AdvancedRAG是RAG演进光谱上"最值钱的一站"——投入最小,回报最大。 在单引擎实现(避免双写一致性)BM25tokenizer适配语言(中文用ik_max_word+ik_smart)Vector和BM25并行执行(不要串行)RRF的k值在GoldenSet上gridsearch优化单路超时降级

    28710编辑于 2026-06-09
领券