首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏周末程序猿

    RAG实战|8种RAG架构浅析

    因为项目的需要,之前研究了一段时间的RAG,于是本文总结 8 种 RAG 架构,对每种架构进行简要介绍,并用 langchain 实现其参考代码。 1. Naive RAG 简介: Naive RAG 是最基础的检索增强生成架构,采用“索引-检索-生成”的经典流程。 ", "文档3内容..."]) answer = naive_rag.query("What is issue date of lease?") print(answer) 2. 架构: 实现步骤: 查询分类:分析用户查询的类型和复杂度(简单事实/多跳推理/开放性问题) 策略选择:根据查询类型选择最优的RAG策略 简单查询:直接LLM回答或单次检索 复杂查询:多轮迭代检索 开放性问题 ": 3, "relevance": 3, "summary": ""} def query(self, question: str) -> Dict: """SFR-RAG

    1K10编辑于 2025-12-30
  • 来自专栏TechLead

    RAG技术架构与实现原理

    本文详细解析了RAG技术,包括其定义、作用、技术架构和检索模块的实现与优化,全面展示了RAG在自然语言处理中的重要性和广泛应用前景。 关注TechLead,复旦AI博士,分享AI领域全维度知识与研究。 RAG模型的核心思想是通过检索和生成的有机结合,弥补生成模型(如GPT-3、BERT等)在处理知识密集型任务时的不足。传统的生成模型在面对复杂问题时,常常因缺乏足够的知识而生成出错误或无关的回答。 二、RAG的技术架构 RAG模型整体架构 RAG(Retrieval-Augmented Generation)模型的技术架构包括两个主要部分:检索模块(Retriever)和生成模块(Generator 技术架构图 以下是RAG模型的技术架构图,展示了检索模块和生成模块的工作流程: 输入查询 │ ▼ 检索模块 │ ├──> 文档1 │ ├──> 文档2 检索模块架构 RAG的检索模块通常采用双塔模型(Dual-Encoder)架构,由两个独立的编码器组成:一个用于编码查询(Query Encoder),另一个用于编码文档(Document Encoder

    9.5K10编辑于 2024-07-15
  • 来自专栏软件设计

    七种RAG架构cheat sheet!

    Weaviate 是一个开源的向量数据库, 面向的就是RAG使用场景,给出了七种RAG架构cheat sheet。RAG 分为两个阶段:索引阶段 和 查询阶段,每个阶段都有超多硬核技术加持! 7 种 RAG 架构 以下是Weaviate官方总结的七种RAG(Retrieval-Augmented Generation)架构的核心要点速查表,涵盖核心原理、优缺点及适用场景。1. 3. Multimodal RAG(多模态RAG)核心原理:支持多模态数据(文本、图像、视频等)的检索与生成,利用跨模态模型(如CLIP)对齐语义。 Milvus:分布式架构,适合超大规模数据(亿级向量)。 2. LLM 服务云端 API:OpenAI GPT、DeepSeek。 本地部署:Ollama、vLLM。 3. #RAG架构 #Weaviate #AI技术 #技术分享 #多模态 #知识图谱 #智能代理

    1.5K40编辑于 2025-01-24
  • 来自专栏大模型系列

    MiA-RAG (Mindscape-Aware RAG):为大模型构建“全局大脑”的革命性RAG架构

    MiA-RAG的诞生,正是为了将这种人类独有的“全局心智”能力赋予AI系统。 二、MiA-RAG的核心思想与整体架构MiA-RAG的核心创新在于其两阶段架构,明确分离了全局心智构建和局部任务执行两个过程。 三、关键技术优势与对比分析特性传统RAG超长上下文MiA-RAG上下文视野局部、碎片化理论上完整,但实际注意力稀释全局、结构化计算成本低(仅处理小片段)极高(处理整个文档)中等(预处理+小片段处理)推理能力单跳 四、实验效果与评估根据原论文(arXiv:2512.17220)及后续的行业评测,MiA-RAG在多个专注于长上下文理解和基于证据推理的基准测试中,持续且显著地超越了现有的所有基线RAG方法。 深入的案例研究表明,MiA-RAG能够成功地将分布在文档不同部分的证据进行整合,完成复杂的多跳推理,而传统RAG则常常失败。

    26111编辑于 2026-04-02
  • 大模型+知识库rag项目架构

    将大模型与知识库结合的项目架构RAG项目架构)可能指的是一种结合了检索(Retrieval)和生成(Generation)的架构,即RAG(Retrieval-Augmented Generation 这种架构特别适用于需要结合检索信息和生成新内容的任务,如开放域问答、内容创作等。RAG架构的一般流程如下:检索阶段(Retrieval):首先,系统会从知识库中检索出与输入查询相关的信息。 在实际应用中,RAG项目架构可以根据不同的应用场景和需求进行定制和优化。例如,检索系统可以使用不同的搜索引擎或推荐系统,而生成模型可以是传统的语言模型,也可以是专门为特定任务训练的模型。 如果你有关于RAG项目架构的具体问题,或者需要了解如何在特定的应用场景中实现这种架构,请提供更多的上下文信息,我会尽力提供帮助。

    1K10编辑于 2024-04-19
  • 学习向量数据库与 RAG 架构

    ### **二、RAG 架构:核心原理与流程**#### 1. RAG 是什么? 3. **监控与评估**: - 监控检索精度(如人工标注Top N结果相关性)、LLM回答准确率。 - 用工具如LangSmith、RAGAs评估RAG系统性能。 4. - 理解分布式向量数据库的分片、副本机制(如Milvus的DataNode、QueryNode架构)。 2. **RAG高级架构**: - **多模态RAG**:支持图像、音频等数据(如用CLIP模型生成跨模态向量)。 3. **结合其他技术**: - 与知识图谱(KG)结合,提升检索逻辑推理能力(如RAG + KG架构)。

    76310编辑于 2025-10-24
  • 来自专栏AIGC

    【AIGC】通过RAG架构LLM应用程序

    toc在之前的博客文章中,我们已经描述了嵌入是如何工作的,以及RAG技术是什么。本节我们我们将使用 LangChain 库以及 RAG 和嵌入技术在 Python 中构建一个简单的 LLM 应用程序。 我们的 RAG 应用程序将使用私有数据扩展 LLM 的知识。在这种情况下,它将是一个包含一些文本的 PDF 文件。 ]', metadata={'source': pdf_path, page: 2}), ...]3.切割文件我们不想将整个文档作为上下文发送到 LLM。为什么? 在关于RAG的文章中对此进行了更详细的描述。 复制密钥并将其粘贴到 .env 文件中,如下所示:OPENAI_API_KEY=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让我们通过导入 load_dotenv

    50410编辑于 2024-05-08
  • 来自专栏云云众生s

    RAG 架构如何克服 LLM 的局限性

    检索增强生成 (RAG) 是一种架构框架,利用 向量数据库 来克服现成 LLM 的局限性。在本文中,我将引导你了解 RAG 的功能和优势,以及它如何促进 LLM 和实时 AI 环境的彻底改造。 检索增强生成 (RAG) RAG 是一种架构框架,可帮助企业在其 LLM 和 AI 生态系统和流程中使用专有向量数据库作为先导步骤。RAG 将这些搜索结果用作 LLM 的附加输入,可用于塑造其答案。 RAG 架构使 LLM 能够在对提示或查询创建响应之前访问外部数据库。 通过绕过重新训练流程,RAG 为企业提供了一种经济且便捷的方式来增强其 AI 应用程序,而不会损害搜索准确性和性能。 RAG 的功能和优势 既然你对 RAG 有了基本的了解,我想将重点转移到它的主要功能和主要优势上。 更好的搜索质量 增强的搜索质量是企业使用 RAG 解锁的首批优势之一。 展望 RAG RAG 可以帮助生成更好、更具上下文且没有幻觉的响应来回答人类的问题。借助 RAG,聊天机器人的响应对用户来说更快、更准确。当然,这只是一个简单的用例。

    47010编辑于 2024-05-04
  • 来自专栏DeepHub IMBA

    RAG中的3个高级检索技巧

    RAG系统检索的文档可能并不总是与用户的查询保持一致,这是一个常见的现象。 本文将探讨三种有效的技术来增强基于rag的应用程序中的文档检索,通过结合这些技术,可以检索与用户查询密切匹配的更相关的文档,从而生成更好的答案。 查询扩展 查询扩展指的是一组重新表述原始查询的技术。 # 3. How much debt does the company have? Is it increasing or decreasing? # 4. query_embedding) return torch.cosine_similarity(updated_query_embedding, document_embedding, dim=0) 3

    1.2K10编辑于 2024-01-23
  • 构建十亿级向量检索与智能体生态:由 RAG 到 Agentic RAG架构实践

    随着业务向多步推理、动态任务规划以及跨知识库协作检索演进,传统的 RAG(检索增强生成)架构暴露出明显的性能与运维瓶颈。 部署集成化 RAG 解决方案与原生智能体平台 为应对上述挑战,腾讯云联合 Elastic 提供了一套从底层基础设施到敏捷上层开发的全链路解决方案,推动应用由传统 RAG 向 Agentic RAG(智能体驱动的 RAG)转型。 统一化搜索平台架构:将原本割裂的多个组件整合为 1 个集成的 RAG 解决方案。 基础设施与技术效能指标: 服务器资源大幅缩减:在“十亿级向量”的 RAG 应用实战中,系统架构由管理 4 个不同系统、400+ 台服务器,精简至单一集成方案仅需 30 台服务器,实现 90%+ 的成本降低

    23820编辑于 2026-04-12
  • 来自专栏架构驿站

    RAG 架构实战:Fixed-Size Chunking(固定切块) 解析

    Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构RAG 架构的切块策略—Fixed-Size Chunking(固定切块)。 通过本文,你将一文读懂这款为下一代 RAG 应用量身打造的开源图向量数据库的核心理念、架构优势以及它如何助力你的智能化创新。让我们一起深入了解 HelixDB 的独特之处吧! 执行运行: (base) lugalee@labs rag % /opt/homebrew/bin/python3 /Volumes/home/rag/fixedsiz.py 原始文本被切分成了 2 个块 通过本文,你将一文读懂这款为下一代 RAG 应用量身打造的开源图向量数据库的核心理念、架构优势以及它如何助力你的智能化创新。让我们一起深入了解 HelixDB 的独特之处吧! 今天的解析就到这里,欲了解更多关于 LM Studio 相关技术的深入剖析,最佳实践以及相关技术前沿,敬请关注我们的微信公众号或视频号:架构驿站(priest-arc),获取更多独家技术洞察!

    39110编辑于 2025-05-25
  • 来自专栏云云众生s

    PDF通过新的RAG架构更容易进入GenAI

    虽然这些视觉丰富的元素通常被排除在 RAG 工作流程之外,但一种用于从视觉增强文档中检索信息的新方法将简化多模态文档准备,并改变 RAG 和生成式 AI (GenAI) 的潜力。 这些处理步骤可能很耗时,并会影响检索质量,但 Contextualized Late Interaction over PaliGemma (ColPali) 是一种新的检索模型架构,专注于文档密集型环境中的 RAG,克服了这些挑战。 ColPali 的架构建立在两个关键概念之上:来自 视觉语言模型 (VLMs) 的上下文视觉嵌入和后期交互机制。 展望未来 ColPali 架构为文档检索树立了新标准,提供了一个灵活的框架,可以适应新兴的 VLM。基准测试结果表明 ColPali 优于传统方法,标志着该领域范式转变。

    39710编辑于 2024-10-10
  • 来自专栏Datawhale专栏

    RAG 作者:RAG 已死,RAG 万岁!

    一个具有更大上下文窗口的新模型问世,社交媒体上便会充斥着“RAG 已死”的宣言。 的 Gemini 1.5,上下文窗口达 100 万 token 2025 年 3 月:模型上下文协议(Model Context Protocol)让你能直接与你的数据对话 (注:原文日期可能是笔误) 底线是:您同时需要长上下文 LLM 和 RAG。 但既然“RAG”这个术语似乎如此具有争议性,那我们不妨这样说: 我们不必非得称之为 RAG。 我们可以就叫它 检索 (retrieval)。 RAG 提供了相当于直接翻到相关页面的能力。处理更多 token 不仅更慢,而且极其低效,并且比使用 RAG 精准定位所需信息要昂贵得多。 RAG、微调和大型上下文窗口在 AI 中也是如此。 结论 我们不需要在 RAG 与长上下文窗口、微调或 MCP 之间做出选择。

    70710编辑于 2025-04-24
  • 来自专栏全栈开发工程师

    RAG】001-RAG概述

    RAG】001-RAG概述 0、整体思维导图 下面的知识是基于一个视频教程结合 AI 生成的笔记,我也看了一遍,有了一些印象,但这种印象很快就会消失,知识也就消失了,为了使得知识在我的大脑中停留更长的时间 补充1:RAG 基本逻辑 补充2:RAG 知识库基本逻辑 一、RAG 介绍 1、LLM 的主要局限性 大语言模型(LLM)尽管功能强大,但仍存在以下明显的局限性: 时效性问题:模型的知识在预训练后就固定了 在向量数据库中搜索相似内容 获取最相关的文本片段 生成过程: 将检索到的相关内容与用户问题组合 构建合适的提示词(Prompt) 通过 LLM 生成最终答案 3RAG 的应用场景 RAG 技术在多个领域都有广泛应用 3、选择建议 3.1 适合使用 RAG 的场景 需要频繁更新知识的应用 对答案准确性要求高的场景 预算有限但需求明确的项目 需要透明解释的业务场景 3.2 适合使用 Fine-tuning 的场景 任务明确且相对固定的应用 Prompt 构建: 设计提示模板 整合检索内容 添加约束条件 LLM 调用: 发送完整 Prompt 控制生成参数 处理模型输出 后处理优化: 格式化输出 添加引用来源 质量检查 3

    75010编辑于 2025-03-25
  • 来自专栏IT大咖说

    使用 Llama3 和 Ollama 改进了 RAG

    ◆介绍: 在本文中,我们将创建一个高级 RAG,它将根据作为管道输入给出的研究论文来回答用户查询。用于构建该管道的技术堆栈如下。 Ollama 嵌入模型 mxbai-embed-large Ollama 量化Llama-3 8b 模型 本地托管的 Qdrant 向量数据库。 在初始步骤(称为“步骤 1”)中,语言模型(具体以 GPT-3 为例)通过指令提示引导,根据原始查询生成假设文档。这一过程是针对论文中提出的问题精心定制的,尽管文件具有假设性,但仍确保了相关性。 输出: ◆结论: 总之,通过利用 Meta 的大型语言模型等尖端技术的力量Llama-3,以及 等复杂的方法HyDE,并利用 的功能Ollama,我们准备构建无与伦比的 RAG 管道。 log_from=adb4c5d3cf43a_1713747619961

    1.6K10编辑于 2024-04-24
  • 来自专栏机器学习原理

    rag

    引言 传统的生成模型,例如GPT-3,尽管在生成流畅自然的文本方面表现出色,但在应对特定领域的深度问答时常常显得力不从心。 在成功检索到相关文档后,RAG的生成模型接管任务。生成模型通常基于Transformer架构,如BERT或GPT,利用检索到的文档作为上下文生成对用户查询的回答。 这个过程依赖于双编码器架构,其中查询和文档被分别编码为向量,并计算它们之间的相似度。 参考文档生成回答:生成模型随后接收到检索到的相关文档,并将它们与用户的查询一起作为输入。 生成模型通常使用Transformer架构,确保生成的文本不仅自然流畅,而且信息准确。 输出答案:最终,生成的答案被返回给用户。 RAG技术 VS 纯生成模型(如GPT-3) 纯生成模型,如GPT-3,通常依赖于大量的数据和参数来生成文本。

    60511编辑于 2024-06-27
  • 来自专栏DDD

    架构架构3

    最近又看了几本关于架构的书籍,不禁回到原点:架构是什么?架构师职责是什么? 、架构决策以及设计原则 系统结构 实现该系统的一种或多种架构风格(比如微服务、分层和微内核) 仅仅描述结构并不能完整地诠释架构,还需要了解架构特征、架构决策和设计原则 架构特征 架构特征定义了系统的成功标准 架构特征满足三个标准: 1.明确非领域设计的某个注意事项2.影响设计的某些结构项3.是否对应用的成功至关重要 构架决策 架构决策定义了一组关于如何构建系统的规则,构成了系统约束,并指导团队哪些可以做, 它需要知识以及应用知识的能力 2.影响力用来衡量架构师在项目中应用技能后给项目或公司带来多大的效益 3.领导力确保了架构实践的状态能稳步向前推进,同时培养更多的架构师 能力模型 论能力模型,与开发人员之间对技术方向的侧重有所不同 避免瓶颈陷阱方法之一是将关键路径和框架代码委托给开发团队其他人员,然后着重于实现业务功能(一个服务),并且在1~3个迭代中完成。 如何保持编码能力和一定水平的技术深度呢?

    59730发布于 2021-11-12
  • 来自专栏自然语言处理

    RAG Logger:RAG日志记录工具

    您听说过 RAG Logger 吗? 它是一款专为检索增强生成 (RAG) 应用程序设计的开源日志记录工具! 据说它可以作为 LangSmith 的轻量级替代方案,满足 RAG 特定的日志记录需求。 查询、搜索结果、LLM 交互和性能指标可以以 JSON 格式记录。 特点 通过查询跟踪详细了解用户问题! RAG Logger 为 RAG 应用程序的性能监控和调试提供了强大的支持,对吗? 特别推荐给那些想要提高应用程序开发效率的人。 请参阅此处的详细信息: RAG Logger GitHub 仓库

    31110编辑于 2025-01-07
  • 来自专栏大模型应用开发

    10 万文档干崩 RAG?这套架构救了我

    为一家医药科技公司开发检索增强生成(RAG)系统刚满三个月,一切就全乱套了。 一家手握 10 万份医疗文献、病例报告的医疗机构,结果整个搜索架构直接被数据量压垮。 这次踩坑让我对 RAG 系统的认知彻底颠覆,现在就把这套能支撑 10 万份医疗文档、响应时间不足一秒的架构原封不动分享给你 —— 连可直接跑的代码都准备好了。 真正能落地的架构方案踩废五种方案后,这套架构终于在生产环境扛住了 10 万份医疗文档的压力:第一层:智能文档处理再像愣头青一样盲目切分文档可就太业余了。 第二层:混合搜索架构说个容易挨喷的结论:纯向量搜索被吹过头了。 错误 3:不监控检索质量以前光顾着盯着 LLM 输出,却不管检索的医疗文档对不对。

    52920编辑于 2025-11-28
  • 来自专栏数据派THU

    独家 | 进阶RAG-提升RAG效果

    在我的上一篇博客中,我深入地介绍了RAG以及它是如何用LlamaIndex实现的。然而,RAG在回答问题时经常遇到许多挑战。 RAG工作流程分解 首先,为了增强对RAG的理解,我们将RAG工作流程分解为三个部分,并对每个部分进行优化以提高整体表现。 3. 分块优化 选择正确的chunk_size是一个关键的决定,它可以在几个方面影响RAG系统的效率和准确性: 相关性和粒度 较小的chunk_size,如128,产生更细粒度的块。 3. 一旦建立了与子文档的对齐,它就会检索与该子文档相关联的整个父文档。在所示的图片中,最终获得了父块。 4. 父文档的这种检索很重要,因为它为理解和响应用户的查询提供了更广泛的上下文。 模块化RAG 模块化RAG集成了多种方法来增强RAG的不同组成部分,如在检索器中加入相似度检索的搜索模块和应用微调方法 RAG融合(RAG Fusion) RA融合技术结合了两种方法: 多查询检索 利用

    1.5K20编辑于 2024-06-28
领券