首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据杂货铺

    全文检索、向量检索混合检索的比较分析

    全文检索 全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比,全文搜索即使在部分匹配的情况下也能提供结果。 混合搜索的案例 混合搜索结合了全文搜索和矢量搜索的优点。它建立在全文搜索的可访问性、即输入即搜索体验的基础上,并集成了人工智能搜索支持的增强发现功能。 Elasticsearch 用户越来越多地使用不同类型信息的搜索检索 — BM25 用于文本,向量搜索用于密集向量。 混合搜索技术通常会提供更好的结果:对多个 BIER 数据集进行基准测试显示,结合 BM25 和基于 ELSER 的排名时,相关性有所提高,现在用户甚至可以更轻松地组合所有这些检索方法。 混合搜索将全文搜索的可访问性与人工智能实现的改进发现相结合。 混合搜索是现代搜索方法,将最先进的搜索功能统一到单个 API 后面。

    6.2K10编辑于 2024-04-24
  • 来自专栏Elastic Stack专栏

    改进 Elastic Stack 中的信息检索混合检索

    Elasticsearch ®还具有强大的词汇检索功能和丰富的工具来组合不同查询的结果。在本博客中,我们介绍了混合检索的概念,并探讨了 Elasticsearch 中可用的两种具体实现。 混合检索尽管现代训练管道产生了在零样本场景中具有良好性能的检索器模型,但众所周知,词汇检索器(例如 BM25)和语义检索器(例如 Elastic Learned Sparse Encoder)在某种程度上是互补的 我们进行了一些重叠测量,以检查弹性学习稀疏编码器、BM25 和各种密集检索器之间的这一假设,如表 1 所示。这为使用所谓的混合搜索提供了一些基本原理。接下来,我们研究混合搜索的两种显式实现。 然而,对于现代词汇语义混合检索来说,k 和 N 的最佳值是什么并不清楚。此外,我们想了解结果对这些参数的选择有多敏感,以及最优值是否可以在数据集和模型之间推广。 分数加权总和Elasticsearch 支持的另一种混合检索方法是使用线性函数组合 BM25 分数和模型分数。本文研究了这种方法,结果表明,在校准良好的情况下,它比倒数秩融合更有效。

    3.3K31编辑于 2023-07-20
  • 来自专栏大数据生态

    「最佳实践」腾讯云 Elasticsearch 8.13.3 向量混合检索

    // 混合多路检索GET dpcq_verctor_bbz768/_search{ "size": 2, "query": { "match": { "text_field": { knn_resp = knn_search(es, index, query) # 调用混合检索 mix_resp = mix_search(es, index, knn) # 检索效果测试我们模拟用户在商城搜索栏输入一个手机型号:小米 12 pro max ● 向量检索结果可能会召回不相关的内容 ● 而使用 ES 的混合检索,利用前置过滤,在提高效率的同时,可以大幅提升召回率 ● ES 也支持在在混合检索场景使用聚合查询 10. 总结从检索效果可以直观看出,使用纯向量检索,往往是达不到业务需求的。如果想提升召回率,则需要配合混合检索,不仅可以提前过滤一些不相关的内容,对性能也有一定提升。

    1.2K76编辑于 2025-03-08
  • 来自专栏自然语言处理

    LevelRAG:突破查询重写瓶颈,提升混合检索效果

    主要问题包括: 查询重写的适用性 现有的查询重写技术大多只适用于密集检索器,导致在混合检索(结合稀疏检索、密集检索、网络搜索)中效果受限。 检索结果的完整性 & 准确性 混合检索可能会带来重复或矛盾的信息,影响最终答案质量。 稀疏检索器的优化问题 现有查询重写方法未能充分发挥稀疏检索器的优势,如何提高其检索精度仍是个难题。 (Chan et al. 2024) 混合检索(Hybrid Retrieval) 结合 BM25 和 密集检索 提高检索效果(Lu et al. 2022, Wang et al. 2023) 利用 完整性验证: LevelRAG 优于单一检索器 & 传统混合检索,确保了 检索完整性 & 准确性。 未来研究方向 尽管 LevelRAG 取得了显著的成果,但仍有一些值得进一步探索的方向: 1. 模型压缩、并行计算、缓存机制等优化手段 总结 LevelRAG 通过: 高级检索器的 逻辑规划 低级检索器的 多检索融合 稀疏检索器的 查询优化 优化了 RAG 在混合检索场景中的查询重写和检索逻辑

    55910编辑于 2025-03-03
  • 来自专栏openclaw系列

    向量检索实战 —— OpenClaw 如何实现混合搜索(向量 + 全文)

    关键词:混合检索|向量数据库|SQLite FTS5|ONNX 嵌入|相似度归一化|候选重排序 在上一篇中,我们了解了 OpenClaw 记忆系统的配置体系。 为此,OpenClaw 构建了一套轻量但强大的混合检索引擎(Hybrid Search Engine),巧妙结合向量语义搜索与全文关键词匹配,在资源受限的边缘设备(如个人服务器)上也能提供接近商业 RAG 一、为什么需要混合检索? 单一策略的局限 混合检索的价值 高召回率(Recall):关键词确保关键信息不丢失 高相关性(Relevance):向量确保语义匹配 鲁棒性:任一子系统失效,另一仍可兜底 OpenClaw 默认采用 结语:混合检索是平衡的艺术 OpenClaw 的混合检索引擎,没有追求最前沿的 ANN 算法或最大规模的向量库,而是在实用性、性能与准确性之间找到最优解。

    1.3K21编辑于 2026-03-14
  • 来自专栏产品笔记

    RAG智能问答系统为什么要使用混合检索

    检索增强生成简称RAG(Retrieval-augmented Generation),RAG为大语言模型安装了知识外挂,基础大语言模型不用训练,通过RAG技术与大语言模型结合在回答问题的时候,可以通过企业内部的知识库检索相关和最新的信息来生成内容 01 — 为什么要用混合检索? 在RAG智能问答系统中,RAG检索环节中的检索的方式采用向量检索,即通过语义相关度匹配的方式进行检索。 在文本搜索场景,首先需要确保最相关的结果能够出现在检索的结果中。向量检索和关键词检索各有优势,而引入混合检索结合了两种搜索技术的优点,并且弥补了各自的缺点。 02 — 什么是混合检索混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。而在RAG系统中,混合搜索最常见指向量检索和关键词检索的组合。 不同的检索系统在寻找文本中各自擅长之间存在不同的联系,没有任何一种检索模式能够适用全部的情景,混合检索通过多个不同的检索系统组合,结合不同检索系统的优势,实现多个检索技术直接的互补。

    79610编辑于 2024-03-06
  • 来自专栏方才编程

    ElasticSearch实战系列02:中文+拼音混合检索,并高亮显示

    本文导读 本文仿照QQ的用户搜索,搭建一个中文+拼音的混合检索系统,并高亮显示检索字段。 【ps:留言区附完整版项目源码地址】 01 项目简介 本项目基于ElasticSearch 7.7.1,analysis-pinyin 7.7.1,参考QQ的用户搜索效果,完成一个中文+拼音的混合检索系统 中文+首字母+全拼检索 其实QQ的用户检索是有很多限制的,比如说首字母检索时,必须从第一个字开始匹配【输入“gz”,可以检索到“关注我”,但是不能检索到“我关注”】; 再比如说全拼+首字母检索时,全拼必须在前面 【输入“guanz”,可以检索到“关注我”,但是输入“gzhu”,是不能检索到结果的】; 至于为什么会有如此限制,个人猜测是考虑检索性能(PS:欢迎留言讨论)。 1.2 检索需求描述 参考QQ,列出“用户检索系统”的需求如下: 1)支持首字母检索; 2)支持首字母+全拼检索; 3)支持中文+首字母+全拼混合检索; 4)检索词有中文,则必须包含; 5)高亮显示检索命中词

    5.4K20发布于 2020-11-13
  • 来自专栏AI进修生

    HybridRAG:混合 RAG 引擎 - 知识图谱 + 向量检索!比 GraphRAG 更好!

    我们都听说过检索增强生成(RAG),许多人使用 RAG 因为它能够增强语言模型的功能,通过结合检索和生成处理来提高准确性,减少幻觉,并且更加经济高效。 通过集成基于向量和图形的检索方法,这将使框架能够以更高的精度和可靠性处理复杂数据。这使其成为传统 RAG 方法的重大进步。在这里,我想介绍一个已经实现这种混合 RAG 的框架——HybridRAG。 Vector RAG 和 GraphRAG 系统整合到一个新框架中的混合 RAG 将会提升不同 RAG 方法的能力。 通过在金融收益电话会议记录上的实验,HybridRAG 展示了其在信息检索和生成方面的优越性能。 为了解决这个问题,我们看到了混合 RAG,它结合了知识图谱和传统 RAG 技术来更好地进行信息提取。

    3.3K02编辑于 2024-12-02
  • 来自专栏产品笔记

    RAG智能问答系统为什么要使用混合检索?(完整版)

    01 — 为什么要用混合检索? 基于语义的向量检索 在RAG智能问答系统中,RAG检索环节中的检索的方式采用向量检索,即通过语义相关度匹配的方式进行检索。 在文本搜索场景,首先需要确保最相关的结果能够出现在检索的结果中。向量检索和关键词检索各有优势,而引入混合检索结合了两种搜索技术的优点,并且弥补了各自的缺点。 02 — 什么是混合检索混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。而在RAG系统中,混合搜索最常见指向量检索和关键词检索的组合。 ,通常会支持混合检索、向量检索和全文检索。 作为平台用户可以选择使用哪种检索方式; 混合检索结合全文检索和向量检索的的优势,对召回的结果进行综合排序,让大模型生成的结果更好,也是各个平台优先推荐的;

    3.6K10编辑于 2024-03-25
  • 来自专栏DeepHub IMBA

    深入RAG架构:分块策略、混合检索与重排序的工程实现

    最初的版本就是标准版:全量文档 embedding,向量检索,LLM生成。 光是这一步就解决了大约40%的检索故障。垃圾进垃圾出——chunk 质量上去了检索效果自然跟着上去。 Level 3:混合搜索 假设这样一个查询:"What's our PTO policy for employees with 5+ years tenure?" Level 5:生产级RAG 前面几个级别都在提升检索质量。生产级RAG要处理的是另一件事:检索已经尽力了,但还是失败了,怎么办? 因为它一定会失败,用户会问文档里根本没覆盖的问题。 真正该问的不是"怎么杜绝检索失败",而是"检索失败的时候,系统该怎么表现"。 护栏 上下文不够的时候,别让LLM自己编。

    24710编辑于 2026-02-27
  • 来自专栏大数据生态

    「最佳实践」腾讯云 ES 8 向量化语义混合检索测试指南

    knn_resp = knn_search(es, index, vectors) # 调用混合检索 mix_resp = mix_search(es, index, query {json_output}") counter += 1 counter = 1 with col2: st.write("### 混合检索结果 检索效果测试 我们模拟用户在商城搜索栏输入一个手机型号:小米 12 pro max ● 向量检索结果可能会召回不相关的内容 ● 而使用 ES 的混合检索,利用前置过滤,在提高效率的同时,可以大幅提升召回率 ● ES 也支持在在混合检索场景使用聚合查询 8. 总结 从检索效果可以直观看出,使用纯向量检索,往往是达不到业务需求的。如果想提升召回率,则需要配合混合检索,不仅可以提前过滤一些不相关的内容,对性能有一定提升。

    1.3K4038编辑于 2024-04-11
  • 向量数据库如何实现混合检索?腾讯云方案为何成为企业首选?

    摘要 在AI时代,非结构化数据检索面临语义理解与精准匹配的双重挑战。混合检索(向量+标量字段过滤)通过结合语义相似度与结构化条件筛选,成为破局关键。 本文解析混合检索技术原理,对比主流方案差异,并重点推荐腾讯云向量数据库的混合检索能力及其商业价值。 正文 当企业需要同时实现“语义理解”和“关键词过滤”时,传统向量数据库的单一能力已显不足。 混合检索通过融合稠密向量与稀疏向量技术,正在重塑数据检索的效率标准。作为国内首个通过信通院认证的向量数据库服务商,腾讯云如何通过技术创新解决这一难题? 一、混合检索的技术演进 1.1 单一检索的局限性 纯语义检索:依赖向量相似度,易遗漏关键词匹配(如“AI大模型”可能匹配“人工智能模型”但无法识别“LLM”缩写) 纯标量检索:依赖精确匹配,无法处理语义同义词 召回率与效率平衡 需复杂排序算法 二、腾讯云混合检索方案解析 2.1 核心能力矩阵 腾讯云向量数据库通过三大技术创新实现混合检索突破: 双引擎架构: 稠密向量引擎:支持768

    35710编辑于 2025-12-16
  • 混合检索时代来临!如何选择最优解决方案?腾讯云ES全维度测评

    导语 随着企业数据量激增,单一关键词检索已无法满足精准搜索需求。混合检索结合传统文本匹配与AI向量技术,成为提升搜索体验的新引擎。本文将揭秘如何通过腾讯云ES快速构建高性能混合检索系统。 一、混合检索为何成为技术刚需? 混合检索通过同时执行文本搜索(BM25算法)和向量搜索(语义匹配),显著提升搜索结果的相关性。 文本检索能力弱,需额外拼接系统 纯向量搜索场景 腾讯云ES(AI搜索增强版) 开箱即用,存算分离,内置向量引擎 需按集群规格付费 需要快速上线、高可用的企业 三、腾讯云ES深度测评:为什么是混合检索首选 四、实战建议:如何高效落地混合检索? 结语 混合检索已成为企业数字化升级的必备能力。

    16710编辑于 2026-01-14
  • 来自专栏啦啦啦啦前端

    信息检索格式 布尔检索

    信息检索格式 布尔检索式 名称 符号 表达式 功能 逻辑与 * 或and AB 同时含 有提问词A和B的文献,为命中文献 逻辑或 + 或or A+B 凡是含有提问词A或B的文献,为命中文献 逻辑非

    1.6K40编辑于 2023-02-11
  • 来自专栏NLP/KG

    NebulaGraph7 种查询(关键词、向量、混合检索),Graph RAG 探索知识图谱

    KG 混合检索方式不仅使用关键词找到相关的三元组,它也使用基于向量的检索来找到基于语义相似性的相似三元组。 基于关键词的检索混合检索二者主要区别,在于我们从知识图谱中检索信息的方法:基于关键词的检索使用关键词方法,而混合检索使用结合 Embedding 和关键词的混合方法。 ,没有详情的阐述; KG 混合检索,原生向量索引检索和自定义组合查询引擎都返回了与主题相关的大量信息,主要是因为它们能够访问查询 Embedding; 原生向量索引检索返回的回答速度更快(约 3 秒), 看下 7 种查询方法的回答列表: 这是我基于结果的一些看法: KG 基于向量的检索返回了一个不错的回答,有一些球场的历史背景; KG 基于关键词的检索搞错了答案,它甚至没有提到当前球场的名字; 混合检索只返回了关于当前球场的最基本的事 原生向量检索返回了关于当前球场的一些事实,与混合检索返回的结果类似; 自定义组合查询引擎给出了最好的回答,详细且全面,由许多关于球场的统计数据和事实支持。

    5.7K10编辑于 2024-01-20
  • 来自专栏算法与编程之美

    网页|高级检索与专业检索

    1、高级检索 高级检索也称命令检索,是相对于基本检索而言,高级检索可以让你使用多于基本检索的标准来精炼检索,使检索信息更加详细,搜索出的结果可用性也更大。 ? 图1.1 百度高级检索示例图 ? 图1.2 知网高级检索示例图 使用高级检索可以直接根据示例图所示,搞清楚查找资料的关系后,然后根据高级检索的相关内容直接输入逻辑关系搜索从而精确搜索信息。 图1.3 知网高级检索示例图2 2、专业检索 专业检索就是运用检索表达式实现的检索方式。这种检索方式可以让通过运用检索字段精确检索需要的内容。 ? 图2.1 知网专业检索示例图 百度专业检索直接在搜索框输入检索式即可。 图2.4 示例2检索结果 结语 运用高级检索和专业检索可以让搜索更加详细。

    4.3K20发布于 2020-07-16
  • 来自专栏AI研思录

    颠覆传统检索:RAPTOR检索树提升检索准确率20%!

    然而,现有的检索增强方只能检索几个简短的、连续的文本块,这对于需要整合文本多个部分的知识的问题是不够的,限制了它们表示和利用大规模语义结构的能力。 聚类与总结:使用高斯混合模型(GMM)对叶子节点进行软聚类,同一簇内的节点在语义上相近。 聚类算法 聚类算法采用的是高斯混合模型(Gaussian Mixture Models, GMMs),同时由于单个文本可能包含与多个主题相关的信息,所以这篇文章采用了软聚类,即节点可以同时属于多个聚类, 采用递归聚类和汇总技术,RAPTOR创建了一个分层树结构,能够跨检索语料库的各个部分综合信息。在查询阶段,RAPTOR 利用此树结构进行更有效的检索。 实验表明,使用递归总结的检索方法在多个任务上相较于传统的检索增强语言模型提供了显著的改进。在涉及复杂、多步骤推理的问题解答任务中,展示了最优的结果。

    74810编辑于 2025-02-20
  • CodeBuddy协作实战:构建基于多数据库的混合检索 RAG 问答系统开发日志

    本次开发日志将详细记录我如何利用CodeBuddy,从零开始构建一个融合了关系数据库、文档数据库与向量数据库的混合检索 RAG(检索增强生成)问答系统。 工具:CodeBuddy项目环境:Python 3.10, FastAPI, PostgreSQL, MongoDB, Pinecone, OpenAI Embeddings协作场景:从0到1构建支持混合检索的 我向CodeBuddy描述了具体需求:我的提示词:请实现一个混合检索算法类,包含以下方法:1. 关键词搜索:在PostgreSQL中搜索标题和标签2. 向量搜索:在Pinecone中搜索相似向量3. 第四阶段:最终实现与效果经过多次迭代和优化,最终的混合检索系统实现了以下功能:核心特性三重数据库协同:PostgreSQL:存储和管理文档元数据MongoDB:存储原始文档内容Pinecone:处理语义向量检索智能结果融合 通过构建一个融合了 PostgreSQL、MongoDB 和 Pinecone 的混合检索系统,我们成功地将结构化查询的精确性、文档存储的灵活性以及向量检索的语义理解能力结合为一体,有效解决了传统搜索的局限性

    54210编辑于 2025-09-03
  • 来自专栏自然语言处理

    迈向 AI 搜索范式:从AI搜索、多模态推荐到零样本混合检索

    信息检索领域前沿研究观察:从AI搜索到多模态推荐 最近在信息检索领域看到了不少有意思的研究进展,从百度搜索提出的AI搜索范式到各种新颖的检索增强方法,这些工作都在试图解决当前搜索和推荐系统面临的实际问题 https://arxiv.org/abs/2506.17188 MoR:检索器的艺术,混合多种检索方法 在检索技术方面,有一个叫做MoR(Mixture of Retrievers)的工作让我印象深刻 MoR的创新之处在于它不是简单地选择某一种检索器,而是动态地组合多种检索器的结果。 这个系统会根据查询的特点来计算每种检索器的权重。 它既考虑预检索信号(比如查询嵌入与文档簇的接近程度),也考虑后检索信号(包括一些查询性能预测指标)。 无论是多智能体的搜索系统、混合检索方法,还是各种效率优化技术,都在试图解决实际应用中遇到的具体问题。 特别值得注意的是,很多工作都在探索如何更好地结合不同技术的优势,而不是简单地追求单一方法的极致。

    47210编辑于 2025-07-02
  • 混合检索新纪元:支持向量+标量字段的数据库如何提升召回精准度?

    单纯依赖向量相似度检索可能导致结果偏差,而混合检索通过结合向量与标量条件,显著提升召回精准度。本文将对比主流数据库的混合检索能力,并重点解析腾讯云向量数据库的技术优势。 一、混合检索的技术价值 混合检索的核心在于多模态条件联合过滤。例如: 场景示例:检索“深圳南山区评分4.5以上的店铺”,需同时满足地理位置(标量)、评分(标量)和语义向量(向量)条件。 二、主流数据库混合检索能力对比 以下为支持向量+标量混合检索的主流产品对比: 产品 混合检索模式 标量字段支持类型 性能表现(QPS@100万数据 多模态深度集成 稠密+稀疏向量混合:兼容BERT、CLIP等模型生成的向量,支持跨模态检索(如文本+图像); Dify无缝对接:通过SDK快速构建RAG应用,自动生成优化后的混合检索语句。 3. 无论是电商、金融还是内容平台,均可通过其混合检索能力实现业务效率的跃升。立即体验,开启智能检索新篇章!

    37710编辑于 2025-12-17
领券