首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据杂货铺

    全文检索、向量检索混合检索的比较分析

    全文检索 全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比,全文搜索即使在部分匹配的情况下也能提供结果。 混合搜索的案例 混合搜索结合了全文搜索和矢量搜索的优点。它建立在全文搜索的可访问性、即输入即搜索体验的基础上,并集成了人工智能搜索支持的增强发现功能。 Elasticsearch 用户越来越多地使用不同类型信息的搜索检索 — BM25 用于文本,向量搜索用于密集向量。 混合搜索技术通常会提供更好的结果:对多个 BIER 数据集进行基准测试显示,结合 BM25 和基于 ELSER 的排名时,相关性有所提高,现在用户甚至可以更轻松地组合所有这些检索方法。 混合搜索将全文搜索的可访问性与人工智能实现的改进发现相结合。 混合搜索是现代搜索方法,将最先进的搜索功能统一到单个 API 后面。

    6.6K10编辑于 2024-04-24
  • 来自专栏Elastic Stack专栏

    改进 Elastic Stack 中的信息检索混合检索

    Elasticsearch ®还具有强大的词汇检索功能和丰富的工具来组合不同查询的结果。在本博客中,我们介绍了混合检索的概念,并探讨了 Elasticsearch 中可用的两种具体实现。 混合检索尽管现代训练管道产生了在零样本场景中具有良好性能的检索器模型,但众所周知,词汇检索器(例如 BM25)和语义检索器(例如 Elastic Learned Sparse Encoder)在某种程度上是互补的 我们进行了一些重叠测量,以检查弹性学习稀疏编码器、BM25 和各种密集检索器之间的这一假设,如表 1 所示。这为使用所谓的混合搜索提供了一些基本原理。接下来,我们研究混合搜索的两种显式实现。 然而,对于现代词汇语义混合检索来说,k 和 N 的最佳值是什么并不清楚。此外,我们想了解结果对这些参数的选择有多敏感,以及最优值是否可以在数据集和模型之间推广。 结果如表 4 所示。与单独的 Elastic Learned Sparse Encoder 相比,该方法的平均 NDCG@10 提高了 6%,比单独的 BM25 提高了 24%。

    3.8K31编辑于 2023-07-20
  • 什么混合检索?在基于大模型的应用开发中,混合检索主要解决什么问题?

    混合检索是一种结合了关键字检索(稀疏检索)和向量检索(稠密检索)两种技术优势的搜索策略。 在基于大模型的应用开发(尤其是RAG(检索增强生成)系统)中,混合检索主要为了解决大模型“没记住”或“查不准”的问题。 混合检索的作用:在向量还没“学会”行业黑话时,关键字检索作为兜底,强行把包含“CXL”和“MHD”的段落捞回来喂给大模型,保证基础的专业性。 结论:混合检索会将段落B排到最前面。这对于金融年报分析、法律条文引用、医疗药品剂量查询至关重要,能显著降低大模型编造数据的概率。 总结对比表维度纯向量检索纯关键字检索混合检索场景示例“如何提高工作效率?”

    16010编辑于 2026-04-20
  • 来自专栏自然语言处理

    LevelRAG:突破查询重写瓶颈,提升混合检索效果

    主要问题包括: 查询重写的适用性 现有的查询重写技术大多只适用于密集检索器,导致在混合检索(结合稀疏检索、密集检索、网络搜索)中效果受限。 检索结果的完整性 & 准确性 混合检索可能会带来重复或矛盾的信息,影响最终答案质量。 稀疏检索器的优化问题 现有查询重写方法未能充分发挥稀疏检索器的优势,如何提高其检索精度仍是个难题。 实验重点: 检索成功率 & 响应准确性(F1 分数) 对比 无检索(GPT4o、Qwen 2) 和 有检索(ITRG、SelfRAG、ReSP、RankRAG) 方法 关键发现: LevelRAG 在所有数据集上的表现均优于或接近最佳方法 检索必要性判断 & 动态选择检索器 不是所有查询都需要检索! 能否智能判断是否需要检索,还是直接生成答案? 自动选择最优的检索器组合,提高效率。 4. 模型压缩、并行计算、缓存机制等优化手段 总结 LevelRAG 通过: 高级检索器的 逻辑规划 低级检索器的 多检索融合 稀疏检索器的 查询优化 优化了 RAG 在混合检索场景中的查询重写和检索逻辑

    65010编辑于 2025-03-03
  • 来自专栏大数据生态

    「最佳实践」腾讯云 Elasticsearch 8.13.3 向量混合检索

    // 混合多路检索GET dpcq_verctor_bbz768/_search{ "size": 2, "query": { "match": { "text_field": { knn_resp = knn_search(es, index, query) # 调用混合检索 mix_resp = mix_search(es, index, knn) # 检索效果测试我们模拟用户在商城搜索栏输入一个手机型号:小米 12 pro max ● 向量检索结果可能会召回不相关的内容 ● 而使用 ES 的混合检索,利用前置过滤,在提高效率的同时,可以大幅提升召回率 ● ES 也支持在在混合检索场景使用聚合查询 10. 总结从检索效果可以直观看出,使用纯向量检索,往往是达不到业务需求的。如果想提升召回率,则需要配合混合检索,不仅可以提前过滤一些不相关的内容,对性能也有一定提升。

    1.4K76编辑于 2025-03-08
  • 来自专栏有文化的技术人

    RAG 检索全攻略:从原理到落地,一篇搞懂混合检索

    ❝做 RAG 系统,十个团队九个栽在检索上。本文把语义检索、关键词检索混合检索、Rerank 重排序一次讲清楚。 ❞ 先说结论 ❝「生产级 RAG 必须用混合检索。 」"Golang 内存泄漏排查" 支持 部分支持 支持 只有混合检索在所有场景下都能覆盖。 词汇表 = {猫:0, 狗:1, 吃:2, 鱼:3, 睡觉:4, ...} 需要精确匹配:产品型号、法律条款、医学术语 亿级数据,ES 分布式更成熟 需要布尔查询、短语匹配等高级功能 六、混合检索怎么实现? ,但真正做好需要理解: 「语义检索」理解"你想问什么",但对精确术语无能为力 「关键词检索」擅长精确匹配,但对同义表述视而不见 「混合检索」是唯一的正确答案,关键在于选对技术路线 「Rerank」 是从

    1.2K10编辑于 2026-04-16
  • 来自专栏openclaw系列

    向量检索实战 —— OpenClaw 如何实现混合搜索(向量 + 全文)

    关键词:混合检索|向量数据库|SQLite FTS5|ONNX 嵌入|相似度归一化|候选重排序 在上一篇中,我们了解了 OpenClaw 记忆系统的配置体系。 为此,OpenClaw 构建了一套轻量但强大的混合检索引擎(Hybrid Search Engine),巧妙结合向量语义搜索与全文关键词匹配,在资源受限的边缘设备(如个人服务器)上也能提供接近商业 RAG 一、为什么需要混合检索? 结果截断保护 单块内容 > 1000 字符自动截断 总上下文注入 < 4000 tokens(防 LLM 溢出) 4. 异步后台构建 // 不阻塞主推理流程 if (! 结语:混合检索是平衡的艺术 OpenClaw 的混合检索引擎,没有追求最前沿的 ANN 算法或最大规模的向量库,而是在实用性、性能与准确性之间找到最优解。

    2K21编辑于 2026-03-14
  • 来自专栏产品笔记

    RAG智能问答系统为什么要使用混合检索

    检索增强生成简称RAG(Retrieval-augmented Generation),RAG为大语言模型安装了知识外挂,基础大语言模型不用训练,通过RAG技术与大语言模型结合在回答问题的时候,可以通过企业内部的知识库检索相关和最新的信息来生成内容 01 — 为什么要用混合检索? 在RAG智能问答系统中,RAG检索环节中的检索的方式采用向量检索,即通过语义相关度匹配的方式进行检索。 在文本搜索场景,首先需要确保最相关的结果能够出现在检索的结果中。向量检索和关键词检索各有优势,而引入混合检索结合了两种搜索技术的优点,并且弥补了各自的缺点。 02 — 什么是混合检索混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。而在RAG系统中,混合搜索最常见指向量检索和关键词检索的组合。 不同的检索系统在寻找文本中各自擅长之间存在不同的联系,没有任何一种检索模式能够适用全部的情景,混合检索通过多个不同的检索系统组合,结合不同检索系统的优势,实现多个检索技术直接的互补。

    85210编辑于 2024-03-06
  • 来自专栏育种数据分析之放飞自我

    混合线性模型学习笔记4

    这个小节主要是介绍混合线性模型的理论知识,包括固定因子的显著性检验(Wald),随机因子的检验(LRT),固定因子的效应值(BLUE),随机因子的效应值(BLUP)。 1. 题目:混合线性模型理论1 ? 在这里插入图片描述 2. 大纲 混合线性方程组中矩阵的书写形式,固定因子如何构建矩阵,随机因子如何构建矩阵,固定因子和随机因子的显著性检验。 ? 3. 4. 混合线性模型 混合线性模型的矩阵写法: ? 模型解释: ? 矩阵形式推导: ? 5. 单因素随机区组:混合线性模型 固定因子:单因素 随机因子:区组 ? 写出似然函数: ? 相关系列: 混合线性模型学习笔记1 混合线性模型学习笔记2 混合线性模型学习笔记3

    87710发布于 2020-05-13
  • 来自专栏方才编程

    ElasticSearch实战系列02:中文+拼音混合检索,并高亮显示

    本文导读 本文仿照QQ的用户搜索,搭建一个中文+拼音的混合检索系统,并高亮显示检索字段。 全文共分为以下几部分: 1、项目简介,包括需求描述与分析等; 2、项目开发,通过两个版本的index,验证并完成需求; 3、从分词和高亮原理入手,深度分析高亮显示问题; 4、SpringBoot+RestHighLevelClient 【ps:留言区附完整版项目源码地址】 01 项目简介 本项目基于ElasticSearch 7.7.1,analysis-pinyin 7.7.1,参考QQ的用户搜索效果,完成一个中文+拼音的混合检索系统 1.2 检索需求描述 参考QQ,列出“用户检索系统”的需求如下: 1)支持首字母检索; 2)支持首字母+全拼检索; 3)支持中文+首字母+全拼混合检索4检索词有中文,则必须包含; 5)高亮显示检索命中词 但别忘了,我们还有需求4和5,关于需求4,可以简单的使用 post_filter 后置过滤完成需求。

    5.4K20发布于 2020-11-13
  • 来自专栏AI进修生

    HybridRAG:混合 RAG 引擎 - 知识图谱 + 向量检索!比 GraphRAG 更好!

    我们都听说过检索增强生成(RAG),许多人使用 RAG 因为它能够增强语言模型的功能,通过结合检索和生成处理来提高准确性,减少幻觉,并且更加经济高效。 通过集成基于向量和图形的检索方法,这将使框架能够以更高的精度和可靠性处理复杂数据。这使其成为传统 RAG 方法的重大进步。在这里,我想介绍一个已经实现这种混合 RAG 的框架——HybridRAG。 >/ 下面这篇文章文末有手动混合两种方法的代码实践_ 使用GraphRAG+LangChain+Ollama:LLaMa 3.1跑通知识图谱与向量数据库集成(Neo4j) 这是一个新颖的 AI 系统, Vector RAG 和 GraphRAG 系统整合到一个新框架中的混合 RAG 将会提升不同 RAG 方法的能力。 为了解决这个问题,我们看到了混合 RAG,它结合了知识图谱和传统 RAG 技术来更好地进行信息提取。

    3.7K02编辑于 2024-12-02
  • 来自专栏大数据生态

    「最佳实践」腾讯云 ES 8 向量化语义混合检索测试指南

    4. {json_output}") counter += 1 counter = 1 with col2: st.write("### 混合检索结果 检索效果测试 我们模拟用户在商城搜索栏输入一个手机型号:小米 12 pro max ● 向量检索结果可能会召回不相关的内容 ● 而使用 ES 的混合检索,利用前置过滤,在提高效率的同时,可以大幅提升召回率 ● ES 也支持在在混合检索场景使用聚合查询 8. 总结 从检索效果可以直观看出,使用纯向量检索,往往是达不到业务需求的。如果想提升召回率,则需要配合混合检索,不仅可以提前过滤一些不相关的内容,对性能有一定提升。

    1.4K4039编辑于 2024-04-11
  • 来自专栏DeepHub IMBA

    深入RAG架构:分块策略、混合检索与重排序的工程实现

    join(results["documents"][0]) response = client.chat.completions.create( model="gpt-4" 光是这一步就解决了大约40%的检索故障。垃圾进垃圾出——chunk 质量上去了检索效果自然跟着上去。 Level 3:混合搜索 假设这样一个查询:"What's our PTO policy for employees with 5+ years tenure?" Level 4:Reranking 检索回来5个 chunk,跟主题都沾边。但哪些真正在回答问题? Embedding 相似度是单独算的,每份文档独立跟 query 打分。 for r, _ in results]) response = client.chat.completions.create( model="gpt-4"

    42910编辑于 2026-02-27
  • 来自专栏产品笔记

    RAG智能问答系统为什么要使用混合检索?(完整版)

    01 — 为什么要用混合检索? 基于语义的向量检索 在RAG智能问答系统中,RAG检索环节中的检索的方式采用向量检索,即通过语义相关度匹配的方式进行检索。 在文本搜索场景,首先需要确保最相关的结果能够出现在检索的结果中。向量检索和关键词检索各有优势,而引入混合检索结合了两种搜索技术的优点,并且弥补了各自的缺点。 02 — 什么是混合检索混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。而在RAG系统中,混合搜索最常见指向量检索和关键词检索的组合。 ,通常会支持混合检索、向量检索和全文检索。 作为平台用户可以选择使用哪种检索方式; 混合检索结合全文检索和向量检索的的优势,对召回的结果进行综合排序,让大模型生成的结果更好,也是各个平台优先推荐的;

    3.8K10编辑于 2024-03-25
  • Milvus + BGE-M3:Dense与Sparse向量混合检索技术解析

    "iPhone15ProMax"缺乏语义理解能力BGE-M3的出现改变了这一局面——一个模型同时生成两种向量,配合Milvus的混合检索能力,实现语义理解与精确匹配的完美融合。 混合检索(RRF)0.890.840.7625关键发现:混合检索召回率提升7-18%精确率提升2-9%延迟增加约10ms(可接受)6.2场景适用性展开代码语言:PythonAI代码解释SCENARIO_ANALYSIS ={"问答系统":{"best_method":"混合检索(RRF)","reason":"问题包含语义信息,需深度理解"},"电商搜索":{"best_method":"混合检索(加权)","reason 大规模(>100万文档)INDEX_LARGE={"M":32,"efConstruction":400}7.3查询优化查询缓存:对高频查询结果进行缓存调整ef参数:ef=top_k*2到top_k*4预热索引 :系统启动时执行预热查询并行检索:Dense和Sparse检索可并行执行八、总结核心要点BGE-M3优势:一个模型同时生成Dense和Sparse向量,降低部署复杂度混合检索价值:融合语义理解和精确匹配

    39810编辑于 2026-05-09
  • LangChain4j 进阶检索流水线

    以上就是关于 LangChain4j 进阶版 RAG 的简单介绍,感兴趣的同学可以参考官方文档[2]进行学习。 下个章节介绍工具调用。 引用链接 [1] 官方支持很多第三方存储: https://docs.langchain4j.dev/integrations/embedding-stores/ [2] 官方文档: https://docs.langchain4j.dev 往期推荐: 序号 文章标题 链接 1 MCP协议爆火揭秘 查看详情 2 轻松配置Cursor玩转MCP 查看详情 3 Browser-Tool 前端开发神器 查看详情 4 AI编码焕新:用Context7

    15410编辑于 2026-04-29
  • 来自专栏云计算D1net

    混合云战略:4个迹象表明需要更新

    这也是混合云成功的重要原则,这很好地表明组织首先有一个计划。但是策略并不是不变的。 ? 混合云策略:4个警告迹象 成功的混合云计划需要一些正在进行的调整。 Sneddon认为,不断增长的公共云账单是组织需要重新制定混合云计划的标志,尤其是在监控、治理和应用程序特征等领域。 (3)曾经可靠的应用程序在新的环境中出现问题 可靠性和弹性是混合云和多云策略的共同目标。 (4)没有评估和衡量标准 另一个潜在的警告信号:没有警告信号。如果没有关于混合云战略做出初步和持续决策的标准,那么实际上就没有有效的方法来确保一切按计划进行。 凯捷公司北美云卓越中心主任Dave Newell建议,组织需要为混合云架构中的任何环境设定基准目标。

    56710发布于 2020-10-27
  • 向量数据库如何实现混合检索?腾讯云方案为何成为企业首选?

    摘要 在AI时代,非结构化数据检索面临语义理解与精准匹配的双重挑战。混合检索(向量+标量字段过滤)通过结合语义相似度与结构化条件筛选,成为破局关键。 本文解析混合检索技术原理,对比主流方案差异,并重点推荐腾讯云向量数据库的混合检索能力及其商业价值。 正文 当企业需要同时实现“语义理解”和“关键词过滤”时,传统向量数据库的单一能力已显不足。 混合检索通过融合稠密向量与稀疏向量技术,正在重塑数据检索的效率标准。作为国内首个通过信通院认证的向量数据库服务商,腾讯云如何通过技术创新解决这一难题? 一、混合检索的技术演进 1.1 单一检索的局限性 纯语义检索:依赖向量相似度,易遗漏关键词匹配(如“AI大模型”可能匹配“人工智能模型”但无法识别“LLM”缩写) 纯标量检索:依赖精确匹配,无法处理语义同义词 召回率与效率平衡 需复杂排序算法 二、腾讯云混合检索方案解析 2.1 核心能力矩阵 腾讯云向量数据库通过三大技术创新实现混合检索突破: 双引擎架构: 稠密向量引擎:支持768

    60710编辑于 2025-12-16
  • 混合检索时代来临!如何选择最优解决方案?腾讯云ES全维度测评

    导语 随着企业数据量激增,单一关键词检索已无法满足精准搜索需求。混合检索结合传统文本匹配与AI向量技术,成为提升搜索体验的新引擎。本文将揭秘如何通过腾讯云ES快速构建高性能混合检索系统。 一、混合检索为何成为技术刚需? 混合检索通过同时执行文本搜索(BM25算法)和向量搜索(语义匹配),显著提升搜索结果的相关性。 免费试用降低门槛 腾讯云提供30天免费试用(配置:2核4G 20G云盘),体验地址: https://cloud.tencent.com/act/pro/free? 四、实战建议:如何高效落地混合检索? 结语 混合检索已成为企业数字化升级的必备能力。

    31310编辑于 2026-01-14
  • 腾讯云向量数据库:以混合检索架构提升大模型知识召回率

    企业面临非结构化数据检索与知识整合的挑战 随着企业数据量的爆炸式增长,非结构化数据的检索与价值挖掘成为核心痛点。 企业需一种能高效处理语义检索、整合内外知识的解决方案。 腾讯云推出“向量+关键字”双路混合检索方案 腾讯云向量数据库提供Hybrid Search混合检索架构,结合向量语义检索与关键字全文检索。 其技术核心包括: 向量检索(稠密向量):支持多语言语义搜索,具备输入容错能力,可召回近义与关联内容。 关键字检索(稀疏向量):基于倒排索引实现精确匹配,通过内存压缩提升性能。 解决方案:采用一站式知识检索方案,集成数据切分、Embedding生成与向量检索。 量化效果:通过为大模型提供精准外部知识库,客服回答准确率显著提升,人力成本大幅降低(具体降幅未公开)。 持续迭代关键能力:2024年推出混合检索、精细化权限管理等功能,新版内核吞吐提升2倍。 多行业场景验证:除客服系统外,已落地拍照搜题(支持以图搜图)、内容推荐等场景,具备高稳定性与扩展性。

    14010编辑于 2026-05-30
领券