首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据杂货铺

    全文检索、向量检索混合检索的比较分析

    全文检索 全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比,全文搜索即使在部分匹配的情况下也能提供结果。 混合搜索的案例 混合搜索结合了全文搜索和矢量搜索的优点。它建立在全文搜索的可访问性、即输入即搜索体验的基础上,并集成了人工智能搜索支持的增强发现功能。 Elasticsearch 用户越来越多地使用不同类型信息的搜索检索 — BM25 用于文本,向量搜索用于密集向量。 混合搜索技术通常会提供更好的结果:对多个 BIER 数据集进行基准测试显示,结合 BM25 和基于 ELSER 的排名时,相关性有所提高,现在用户甚至可以更轻松地组合所有这些检索方法。 混合搜索将全文搜索的可访问性与人工智能实现的改进发现相结合。 混合搜索是现代搜索方法,将最先进的搜索功能统一到单个 API 后面。

    6.6K10编辑于 2024-04-24
  • 来自专栏Elastic Stack专栏

    改进 Elastic Stack 中的信息检索混合检索

    Elasticsearch ®还具有强大的词汇检索功能和丰富的工具来组合不同查询的结果。在本博客中,我们介绍了混合检索的概念,并探讨了 Elasticsearch 中可用的两种具体实现。 混合检索尽管现代训练管道产生了在零样本场景中具有良好性能的检索器模型,但众所周知,词汇检索器(例如 BM25)和语义检索器(例如 Elastic Learned Sparse Encoder)在某种程度上是互补的 我们进行了一些重叠测量,以检查弹性学习稀疏编码器、BM25 和各种密集检索器之间的这一假设,如表 1 所示。这为使用所谓的混合搜索提供了一些基本原理。接下来,我们研究混合搜索的两种显式实现。 然而,对于现代词汇语义混合检索来说,k 和 N 的最佳值是什么并不清楚。此外,我们想了解结果对这些参数的选择有多敏感,以及最优值是否可以在数据集和模型之间推广。 还值得注意的是,最好和最差参数组合之间的差异仅为 5% 左右;因此错误设置这些参数的惩罚相对较小。我们还想看看是否可以使用倒数排名融合在零样本设置中提高弹性学习稀疏编码器的性能。

    3.8K31编辑于 2023-07-20
  • 什么混合检索?在基于大模型的应用开发中,混合检索主要解决什么问题?

    混合检索是一种结合了关键字检索(稀疏检索)和向量检索(稠密检索)两种技术优势的搜索策略。 在基于大模型的应用开发(尤其是RAG(检索增强生成)系统)中,混合检索主要为了解决大模型“没记住”或“查不准”的问题。 混合检索的作用:在向量还没“学会”行业黑话时,关键字检索作为兜底,强行把包含“CXL”和“MHD”的段落捞回来喂给大模型,保证基础的专业性。 结论:混合检索会将段落B排到最前面。这对于金融年报分析、法律条文引用、医疗药品剂量查询至关重要,能显著降低大模型编造数据的概率。 总结对比表维度纯向量检索纯关键字检索混合检索场景示例“如何提高工作效率?”

    15910编辑于 2026-04-20
  • 来自专栏自然语言处理

    LevelRAG:突破查询重写瓶颈,提升混合检索效果

    主要问题包括: 查询重写的适用性 现有的查询重写技术大多只适用于密集检索器,导致在混合检索(结合稀疏检索、密集检索、网络搜索)中效果受限。 检索结果的完整性 & 准确性 混合检索可能会带来重复或矛盾的信息,影响最终答案质量。 稀疏检索器的优化问题 现有查询重写方法未能充分发挥稀疏检索器的优势,如何提高其检索精度仍是个难题。 (Chan et al. 2024) 混合检索(Hybrid Retrieval) 结合 BM25 和 密集检索 提高检索效果(Lu et al. 2022, Wang et al. 2023) 利用 进一步扩展实验 在更多领域 & 语言测试泛化能力 处理大规模数据集,发现潜在瓶颈 5. 更好的用户交互 & 反馈机制 交互式检索系统,让用户参与优化检索结果 根据用户反馈动态调整检索策略 6. 模型压缩、并行计算、缓存机制等优化手段 总结 LevelRAG 通过: 高级检索器的 逻辑规划 低级检索器的 多检索融合 稀疏检索器的 查询优化 优化了 RAG 在混合检索场景中的查询重写和检索逻辑

    65010编辑于 2025-03-03
  • 来自专栏大数据生态

    「最佳实践」腾讯云 Elasticsearch 8.13.3 向量混合检索

    5. // 混合多路检索GET dpcq_verctor_bbz768/_search{ "size": 2, "query": { "match": { "text_field": { 检索效果测试我们模拟用户在商城搜索栏输入一个手机型号:小米 12 pro max ● 向量检索结果可能会召回不相关的内容 ● 而使用 ES 的混合检索,利用前置过滤,在提高效率的同时,可以大幅提升召回率 ● ES 也支持在在混合检索场景使用聚合查询 10. 总结从检索效果可以直观看出,使用纯向量检索,往往是达不到业务需求的。如果想提升召回率,则需要配合混合检索,不仅可以提前过滤一些不相关的内容,对性能也有一定提升。

    1.4K76编辑于 2025-03-08
  • 来自专栏有文化的技术人

    RAG 检索全攻略:从原理到落地,一篇搞懂混合检索

    ❝做 RAG 系统,十个团队九个栽在检索上。本文把语义检索、关键词检索混合检索、Rerank 重排序一次讲清楚。 ❞ 先说结论 ❝「生产级 RAG 必须用混合检索。 」"Golang 内存泄漏排查" 支持 部分支持 支持 只有混合检索在所有场景下都能覆盖。 需要精确匹配:产品型号、法律条款、医学术语 亿级数据,ES 分布式更成熟 需要布尔查询、短语匹配等高级功能 六、混合检索怎么实现? 所以不用操心两路检索分数量纲不同的问题。 七、Rerank 重排序:从"差不多"到"真的准" 为什么还需要 Rerank? 混合检索的第一阶段(召回)追求的是「快」和「全」,精度是有限的。 ,但真正做好需要理解: 「语义检索」理解"你想问什么",但对精确术语无能为力 「关键词检索」擅长精确匹配,但对同义表述视而不见 「混合检索」是唯一的正确答案,关键在于选对技术路线 「Rerank」 是从

    1.2K10编辑于 2026-04-16
  • 来自专栏IT云清

    5.Elasticsearch检索文档

    我们会发现,我们存储的文档,在_source中,其他的类似_index,_type等都是元数据,元数据在后面会做详细解释。

    64720发布于 2019-01-22
  • 来自专栏openclaw系列

    向量检索实战 —— OpenClaw 如何实现混合搜索(向量 + 全文)

    关键词:混合检索|向量数据库|SQLite FTS5|ONNX 嵌入|相似度归一化|候选重排序 在上一篇中,我们了解了 OpenClaw 记忆系统的配置体系。 为此,OpenClaw 构建了一套轻量但强大的混合检索引擎(Hybrid Search Engine),巧妙结合向量语义搜索与全文关键词匹配,在资源受限的边缘设备(如个人服务器)上也能提供接近商业 RAG 一、为什么需要混合检索? 单一策略的局限 混合检索的价值 高召回率(Recall):关键词确保关键信息不丢失 高相关性(Relevance):向量确保语义匹配 鲁棒性:任一子系统失效,另一仍可兜底 OpenClaw 默认采用 结语:混合检索是平衡的艺术 OpenClaw 的混合检索引擎,没有追求最前沿的 ANN 算法或最大规模的向量库,而是在实用性、性能与准确性之间找到最优解。

    2K21编辑于 2026-03-14
  • 来自专栏产品笔记

    RAG智能问答系统为什么要使用混合检索

    检索增强生成简称RAG(Retrieval-augmented Generation),RAG为大语言模型安装了知识外挂,基础大语言模型不用训练,通过RAG技术与大语言模型结合在回答问题的时候,可以通过企业内部的知识库检索相关和最新的信息来生成内容 01 — 为什么要用混合检索? 在RAG智能问答系统中,RAG检索环节中的检索的方式采用向量检索,即通过语义相关度匹配的方式进行检索。 在文本搜索场景,首先需要确保最相关的结果能够出现在检索的结果中。向量检索和关键词检索各有优势,而引入混合检索结合了两种搜索技术的优点,并且弥补了各自的缺点。 02 — 什么是混合检索混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。而在RAG系统中,混合搜索最常见指向量检索和关键词检索的组合。 不同的检索系统在寻找文本中各自擅长之间存在不同的联系,没有任何一种检索模式能够适用全部的情景,混合检索通过多个不同的检索系统组合,结合不同检索系统的优势,实现多个检索技术直接的互补。

    85210编辑于 2024-03-06
  • 来自专栏方才编程

    ElasticSearch实战系列02:中文+拼音混合检索,并高亮显示

    本文导读 本文仿照QQ的用户搜索,搭建一个中文+拼音的混合检索系统,并高亮显示检索字段。 【ps:留言区附完整版项目源码地址】 01 项目简介 本项目基于ElasticSearch 7.7.1,analysis-pinyin 7.7.1,参考QQ的用户搜索效果,完成一个中文+拼音的混合检索系统 中文+首字母+全拼检索 其实QQ的用户检索是有很多限制的,比如说首字母检索时,必须从第一个字开始匹配【输入“gz”,可以检索到“关注我”,但是不能检索到“我关注”】; 再比如说全拼+首字母检索时,全拼必须在前面 1.2 检索需求描述 参考QQ,列出“用户检索系统”的需求如下: 1)支持首字母检索; 2)支持首字母+全拼检索; 3)支持中文+首字母+全拼混合检索; 4)检索词有中文,则必须包含; 5)高亮显示检索命中词 但别忘了,我们还有需求4和5,关于需求4,可以简单的使用 post_filter 后置过滤完成需求。

    5.4K20发布于 2020-11-13
  • 来自专栏web全栈之路

    WPF+HTML5混合开发

           做wpf和html混合开发也有一段时间了,从传统桌面开发WPF转到web前端,有相通之处,也有差别比较大的地方,xaml到html都是类似xml的结构,style和web的style类似, 可能是前者接触更久的缘故,毕竟微软的东西,有自己一套成熟的体系,封装的系统且友好,而html与js,有vue.js,react.js等热门前端框架,无论是扩展性,丰富性,社区活跃度都比WPF要好      说到混合开发

    1.5K20编辑于 2022-09-29
  • 来自专栏育种数据分析之放飞自我

    混合线性模型学习笔记5

    混合效应或简单混合模型通常是指固定效应和随机效应的混合。我更喜欢混合模型一词,因为它很简单并且没有暗示特定的结构。 3. 标准线性模型 首先,让我们从标准线性模型开始,以熟悉该表示法。 5. 所有可能的混线性模型分析这个数据 因此,我们要考虑数据的集群性质。与其像上面的SLiM中那样忽略聚类,不如考虑为每个人运行完全独立的回归。 5.9 Mixed Model 5b: Multivariate normal model ? 5.10 Mixed Model 6: Penalized regression ? ? ASReml 4.1.0 Wed Apr 5 16:34:50 2020 LogLik Sigma2 DF wall cpu 1 -3817.282 1 混合线性模型学习笔记2 混合线性模型学习笔记3 混合线性模型学习笔记4

    1.7K10发布于 2020-05-14
  • 来自专栏AI进修生

    HybridRAG:混合 RAG 引擎 - 知识图谱 + 向量检索!比 GraphRAG 更好!

    我们都听说过检索增强生成(RAG),许多人使用 RAG 因为它能够增强语言模型的功能,通过结合检索和生成处理来提高准确性,减少幻觉,并且更加经济高效。 通过集成基于向量和图形的检索方法,这将使框架能够以更高的精度和可靠性处理复杂数据。这使其成为传统 RAG 方法的重大进步。在这里,我想介绍一个已经实现这种混合 RAG 的框架——HybridRAG。 Vector RAG 和 GraphRAG 系统整合到一个新框架中的混合 RAG 将会提升不同 RAG 方法的能力。 通过在金融收益电话会议记录上的实验,HybridRAG 展示了其在信息检索和生成方面的优越性能。 为了解决这个问题,我们看到了混合 RAG,它结合了知识图谱和传统 RAG 技术来更好地进行信息提取。

    3.7K02编辑于 2024-12-02
  • 来自专栏BestSDK

    管理混合云的5个秘诀

    当企业试图找出解决新出现的混合问题的最佳方法时,他们会以安全、治理和遵从性的视角来解决这一问题。   然而,企业成功的关键在于了解在基于业务需求的混合环境中管理的基本要素。    企业在采用任何混合云管理平台之前,需要考虑以下五个概念。    例如,IT管理人员可能需要能够向销售人员提供亚秒级响应,以访问和检索混合云中存在的库存应用程序中的数据。    5.了解可用的工具   管理混合云的人往往只关注少数几个管理工具,但他们应定期审查他们的需求,以确保他们有足够的工具来配备API管理、资源管理、云管理平台、绩效管理、DevOps管理、安全管理、网络管理 混合云可能非常复杂。IT团队必须考虑他们的平台和应用程序如何交互以确保最佳性能。通过全面检查如何捕获、分析、存储以及检索数据,IT团队可以开始构建与这些需求相一致的基础设施。   

    94150发布于 2018-03-02
  • 来自专栏企鹅号快讯

    管理混合云的5个秘诀

    如今,“混合”与复杂性似乎是同义词,企业通常担心在IT部门增加更多的工作量,却没有额外的资源来应对。当企业试图找出解决新出现的混合问题的最佳方法时,他们会以安全、治理和遵从性的视角来解决这一问题。 然而,企业成功的关键在于了解在基于业务需求的混合环境中管理的基本要素。 企业在采用任何混合云管理平台之前,需要考虑以下五个概念。 例如,IT管理人员可能需要能够向销售人员提供亚秒级响应,以访问和检索混合云中存在的库存应用程序中的数据。 5.了解可用的工具 管理混合云的人往往只关注少数几个管理工具,但他们应定期审查他们的需求,以确保他们有足够的工具来配备API管理、资源管理、云管理平台、绩效管理、DevOps管理、安全管理、网络管理、本地平台管理等等 混合云可能非常复杂。IT团队必须考虑他们的平台和应用程序如何交互以确保最佳性能。通过全面检查如何捕获、分析、存储以及检索数据,IT团队可以开始构建与这些需求相一致的基础设施。

    95460发布于 2018-01-08
  • 来自专栏大数据生态

    「最佳实践」腾讯云 ES 8 向量化语义混合检索测试指南

    5. {json_output}") counter += 1 counter = 1 with col2: st.write("### 混合检索结果 检索效果测试 我们模拟用户在商城搜索栏输入一个手机型号:小米 12 pro max ● 向量检索结果可能会召回不相关的内容 ● 而使用 ES 的混合检索,利用前置过滤,在提高效率的同时,可以大幅提升召回率 ● ES 也支持在在混合检索场景使用聚合查询 8. 总结 从检索效果可以直观看出,使用纯向量检索,往往是达不到业务需求的。如果想提升召回率,则需要配合混合检索,不仅可以提前过滤一些不相关的内容,对性能有一定提升。

    1.4K4039编辑于 2024-04-11
  • 来自专栏DeepHub IMBA

    深入RAG架构:分块策略、混合检索与重排序的工程实现

    把一个RAG系统从Demo做到生产,中间要解决5个问题。 最初的版本就是标准版:全量文档 embedding,向量检索,LLM生成。 Level 3:混合搜索 假设这样一个查询:"What's our PTO policy for employees with 5+ years tenure?" 关键词搜索能精确命中包含"5+ years"和"tenure"的 chunk。 单独用哪一个都不够。两路合并就可以了。 Level 4:Reranking 检索回来5个 chunk,跟主题都沾边。但哪些真正在回答问题? Embedding 相似度是单独算的,每份文档独立跟 query 打分。 Level 5:生产级RAG 前面几个级别都在提升检索质量。生产级RAG要处理的是另一件事:检索已经尽力了,但还是失败了,怎么办? 因为它一定会失败,用户会问文档里根本没覆盖的问题。

    42910编辑于 2026-02-27
  • 来自专栏产品笔记

    RAG智能问答系统为什么要使用混合检索?(完整版)

    01 — 为什么要用混合检索? 基于语义的向量检索 在RAG智能问答系统中,RAG检索环节中的检索的方式采用向量检索,即通过语义相关度匹配的方式进行检索。 在文本搜索场景,首先需要确保最相关的结果能够出现在检索的结果中。向量检索和关键词检索各有优势,而引入混合检索结合了两种搜索技术的优点,并且弥补了各自的缺点。 02 — 什么是混合检索混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。而在RAG系统中,混合搜索最常见指向量检索和关键词检索的组合。 ,通常会支持混合检索、向量检索和全文检索。 作为平台用户可以选择使用哪种检索方式; 混合检索结合全文检索和向量检索的的优势,对召回的结果进行综合排序,让大模型生成的结果更好,也是各个平台优先推荐的;

    3.8K10编辑于 2024-03-25
  • Milvus + BGE-M3:Dense与Sparse向量混合检索技术解析

    "iPhone15ProMax"缺乏语义理解能力BGE-M3的出现改变了这一局面——一个模型同时生成两种向量,配合Milvus的混合检索能力,实现语义理解与精确匹配的完美融合。 #数字是词ID,值是学习到的权重四、Milvus混合检索架构4.1架构设计Milvus从2.4版本原生支持Sparse向量,可在单个Collection中存储两种向量:展开代码语言:TXTAI代码解释┌ 混合检索(RRF)0.890.840.7625关键发现:混合检索召回率提升7-18%精确率提升2-9%延迟增加约10ms(可接受)6.2场景适用性展开代码语言:PythonAI代码解释SCENARIO_ANALYSIS ={"问答系统":{"best_method":"混合检索(RRF)","reason":"问题包含语义信息,需深度理解"},"电商搜索":{"best_method":"混合检索(加权)","reason :Dense和Sparse检索可并行执行八、总结核心要点BGE-M3优势:一个模型同时生成Dense和Sparse向量,降低部署复杂度混合检索价值:融合语义理解和精确匹配,召回率提升7-18%RRF融合推荐

    39810编辑于 2026-05-09
  • 来自专栏云计算D1net

    5个优化混合云管理的技巧

    对于寻求业务灵活性的IT团队而言,混合云可能是一种具有吸引力但又令人生畏的云计算架构。人们需要了解5个管理混合云的最佳实践,以确保在不影响工作负载运营的情况下最大程度地受益。 很多企业采用了混合云,因为它使企业能够混合和匹配内部部署基础设施、私有云资源和公共云服务,以构建最适合其需求的云计算架构。 探索管理混合云基础设施的最佳实践,以便企业的IT团队能够优化可靠性、性能、成本和安全性。无论企业计划从头开始构建一个混合云,还是要管理现有的混合云,都会发现以下是非常有用的5个技巧。 5.考虑抽象层 如果企业发现管理混合基础设施特别困难,那么可能值得采用将基础设施的各个基础组件组合到一个界面中的工具。 而且在某些情况下,企业可以使用Kubernetes之类的平台,通过创建跨整个混合云的部署,将完全不同的混合云组件集成到单一的环境中。

    87310发布于 2020-03-15
领券