首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据杂货铺

    全文检索、向量检索和混合检索的比较分析

    全文检索 全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比,全文搜索即使在部分匹配的情况下也能提供结果。 Elasticsearch 用户越来越多地使用不同类型信息的搜索检索 — BM25 用于文本,向量搜索用于密集向量。 混合搜索技术通常会提供更好的结果:对多个 BIER 数据集进行基准测试显示,结合 BM25 和基于 ELSER 的排名时,相关性有所提高,现在用户甚至可以更轻松地组合所有这些检索方法。

    6.3K10编辑于 2024-04-24
  • 来自专栏啦啦啦啦前端

    信息检索格式 布尔检索

    信息检索格式 布尔检索式 名称 符号 表达式 功能 逻辑与 * 或and AB 同时含 有提问词A和B的文献,为命中文献 逻辑或 + 或or A+B 凡是含有提问词A或B的文献,为命中文献 逻辑非

    1.6K40编辑于 2023-02-11
  • 来自专栏算法与编程之美

    网页|高级检索与专业检索

    1、高级检索 高级检索也称命令检索,是相对于基本检索而言,高级检索可以让你使用多于基本检索的标准来精炼检索,使检索信息更加详细,搜索出的结果可用性也更大。 ? 图1.1 百度高级检索示例图 ? 图1.2 知网高级检索示例图 使用高级检索可以直接根据示例图所示,搞清楚查找资料的关系后,然后根据高级检索的相关内容直接输入逻辑关系搜索从而精确搜索信息。 图1.3 知网高级检索示例图2 2、专业检索 专业检索就是运用检索表达式实现的检索方式。这种检索方式可以让通过运用检索字段精确检索需要的内容。 ? 图2.1 知网专业检索示例图 百度专业检索直接在搜索框输入检索式即可。 图2.4 示例2检索结果 结语 运用高级检索和专业检索可以让搜索更加详细。

    4.3K20发布于 2020-07-16
  • 来自专栏AI研思录

    颠覆传统检索:RAPTOR检索树提升检索准确率20%!

    然而,现有的检索增强方只能检索几个简短的、连续的文本块,这对于需要整合文本多个部分的知识的问题是不够的,限制了它们表示和利用大规模语义结构的能力。 这篇文章提出了一种新颖的方法——检索树,即考虑了广泛的主题理解,也考虑了细粒度的细节信息。 采用递归聚类和汇总技术,RAPTOR创建了一个分层树结构,能够跨检索语料库的各个部分综合信息。在查询阶段,RAPTOR 利用此树结构进行更有效的检索。 实验表明,使用递归总结的检索方法在多个任务上相较于传统的检索增强语言模型提供了显著的改进。在涉及复杂、多步骤推理的问题解答任务中,展示了最优的结果。 例如,通过将RAPTOR检索与GPT-4结合使用,能够将QuALITY基准上的最佳性能提高20%的准确率。

    75410编辑于 2025-02-20
  • 来自专栏大猪的笔记

    检索日志

    有时需要在大量日志中查找某个关键字。可用以下命令: find . -name "86??"|xargs grep -rn "get_web not hit cache" 从日志命名为 86xx的文件中

    69140发布于 2019-11-22
  • 来自专栏desperate633

    第2-3课 检索数据检索检索排序数据

    这两课主要介绍sql中利用select语句对数据的简单检索。 下面分别讨论不同类型的检索 检索列 单个列 select prod_id from Products; 多个列 select prod_id, prod_name, prod_price from Products ; 所有列 select * from Products; 检索不同值 的列 select distinct vend_id from products; 检索前几列或者后几列 select prod_name from products limit 5; select prod_name from products limit 5 offset 5; 检索排序数据 单个列排序 select prod_name

    1.1K20发布于 2018-08-22
  • 来自专栏机器学习、深度学习

    行人检索

    quadruplet network for person re-identification CVPR2017 https://arxiv.org/abs/1704.01719 本文使用深度学习进行行人检索

    1K20发布于 2019-05-26
  • 来自专栏技术研究和应用

    【向量检索研究系列】本地向量检索(下)

    1 背景上一篇文章《向量检索研究系列:本地向量检索(上)》介绍了如何加快向量相似度计算,但是一般的向量检索流程还包括对计算结果进行排序,以及有必要的话,在计算相似度之前可以对向量库中的向量进行过滤筛选( 如果线上4个版本的向量进行AB实验,则内存总占用约1G。Redis中多个单独的Key和Value读到内存后被存储在一个两层的Map中。 同时也在代码层面对分2段、4段、8段进行了测试,其排序时间对比如下图:图片可以看出,数据量越大,分段数越少排序越快,这和表格中的分段趋势估算一致。 在5万数据量以下,分4段的效果最好,大于5万时,分2段的效果较好。数据量非常大的时候是否能并行排序? 4 业务收益具体的业务数据不便展示,可以提供一些优化效果的对比数据。4.1 召回服务(1)优化后通过模型召回广告的P99分位时延降低了一半。

    2.3K31编辑于 2022-07-14
  • 来自专栏技术研究和应用

    【向量检索研究系列】本地向量检索(上)

    在数据量不大但检索QPS非常高的场景下,使用第三方的向量检索产品可能并不一定是最佳选择,像开源的Faiss、HNSWliib和ScaNN这些优秀的向量检索库比较适用于上亿数量级,而且第三方服务毕竟存在网络请求开销和不稳定性因素 ,高并发场景下容易导致检索平均时延上升和出现很多毛刺现象。 而百万以内的数据是可以接受在业务服务本身内存中存储,这样可以省去很多网络请求时延,而且在服务本身做向量检索,不依赖第三方服务,检索性能相对稳定。 但是在业务服务本身做向量检索会消耗比较多的CPU资源和内存资源,CPU资源是比较稀缺的,而且普通的向量检索效率比较低,时延比较长,如何减少资源消耗和加快向量检索效率成为了优化目标。 但实际上向量检索的流程还有前置的向量过滤(可选流程)和后置的检索结果排序,这两个方面也有进一步优化的空间,以及整体优化后的效果将在下一篇文章《向量检索研究系列:本地向量检索(下)》中进行详细介绍。

    1.6K31编辑于 2022-09-13
  • 来自专栏铭毅天下

    Elasticsearch:普通检索和向量检索的异同?

    读者对向量检索和普通检索的区别充满了好奇,所以就有了今天的文章。 以广泛被使用的 Lucene、Elasticsearch、Solr,以及最近出来的一些类似 MeiliSearch、Redisearch 等为代表,基于词元和倒排索引所构建的普通搜索,是建立在准确的搜索内容和检索语句上的 ,他们往往通过各种方式对文档进行分词(analyze),通过诸如BKD tree等数据结构,将拆解出来的词元(token)进行倒排索引,在检索时也会对检索语句进行同样的分词处理,通过相同词元的匹配进行召回

    5.7K10编辑于 2022-02-09
  • 来自专栏铭毅天下

    Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?

    Elasticsearch:普通检索和向量检索的异同? 3], "title": "Image B", "file-type": "png", "my_label": "blue" } { "index": {} } { "image-vector": [4, 结论:并列组合检索不可行。 2.3.2 方式二:大 BOOL 组合写 按照常规逻辑的 bool 组合检索,结果发现:并不支持! 2.3.5 官方答案二:hybrid search 混合检索 这个方式,就是咱们前面验证过的并列组合检索方式。结论和之前一致,并没有达到预期。 基于已有的常识组合检索是一种方式,更快的方式是结合官方文档探究。 我们既定认为的检索方式,不见得是官方推荐的方式。

    1.6K10编辑于 2024-04-11
  • 来自专栏大猪的笔记

    信息检索:布尔检索-建立倒排索引(2)

    对这两个集合求交集 4.

    1.6K20发布于 2019-11-21
  • 来自专栏大猪的笔记

    信息检索:布尔检索-求交集并集(1)

    前言 布尔检索指对文档集进行布尔运算。 要实现布尔检索,关键在于建立倒排索引和求N个集合的交集,并集。在这里,首先实现两个集合的交并集简易算法。 求交集并集 要布尔检索,首先要求两个集合的交集或并集。 len(arr2): result += arr2[p2:] return result ## test arr1 = [1,3,5,7,8,12] arr2 = [1,4,5,6,7,8

    1.9K11发布于 2019-11-21
  • 来自专栏AI科技时讯

    图像检索:基于内容的图像检索技术(一)

    针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。 图像检索按描述图像内容方式的不同可以分为两类,一类是基于文本的图像检索(TBIR, Text Based Image Retrieval),另一类是基于内容的图像检索(CBIR, Content Based 在进行检索时,用户可以根据自己的兴趣提供查询关键字,检索系统根据用户提供的查询关键字找出那些标注有该查询关键字对应的图片,最后将查询的结果返回给用户。 基于内容的图像检索技术将图像内容的表达和相似性度量交给计算机进行自动的处理,克服了采用文本进行图像检索所面临的缺陷,并且充分发挥了计算机长于计算的优势,大大提高了检索的效率,从而为海量图像库的检索开启了新的大门 ;在医疗诊断方面,医生通过检索医学影像库找到多个病人的相似部位,从而可以协助医生做病情的诊断……基于内容的图像检索技术已经深入到了许许多多的领域,为人们的生活生产提供了极大的便利。

    4.1K21发布于 2020-03-04
  • 来自专栏Java 学习日记

    Lucene 全文检索

    基于 lucene 8 1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包。 1.1 全文检索(Full-text Search) 全文检索就是先分词创建索引,再执行搜索的过程。分词就是将一段文字分成一个个单词。 全文检索就将一段文字分成一个个单词去查询数据 1.2 Lucene实现全文检索的流程 ? 全文检索的流程分为两大部分:索引流程、搜索流程。 4 Field域 我们已经知道,Lucene是在写入文档时,完成分词、索引的。那Lucene是怎么知道如何分词的呢?Lucene是根据文档中的域的属性来确定是否要分词、是否创建索引的。 创建 IndexWriter 对象 IndexWriter indexWriter = new IndexWriter(directory, ifc); //4.

    2.1K61发布于 2019-08-19
  • 来自专栏AI科技时讯

    图像检索:基于内容的图像检索技术(三)

    大规模图像检索特点 无论是对于相同物体图像检索还是相同类别图像检索,在大规模图像数据集上,它们具有三个典型的主要特征:图像数据量大、特征维度高以及要求相应时间短。 图像特征作为直接描述图像视觉内容的基石,其特征表达的好坏直接决定了在检索过程中可能达到的最高检索精度。 如果前置特征未表达好,在构建后置检索模型的时候,不但会复杂化模型的构建,增加检索查询的响应时间,而且能够提升的检索精度也是极其有限的。所以在特征提取之初,应该有意识的选取那些比较高层特征。 在汉明距离排序阶段,对于给定的查询图像,逐一计算查询图像对应的哈希编码到其他各个哈希编码之间的汉明距离,然后按从小到大的顺序进行相似性排序,从而得到检索结果; (4) 重排。 ,其中最成功的方法包括基于树结构的图像检索方法、基于哈希的图像检索方法和基于向量量化的图像检索方法。

    2.9K21发布于 2020-03-04
  • 来自专栏架构进阶

    Postgresql中的检索:中文分词及语义检索

    一 前言     在上一篇文章中提到,在postgresql中,使用pgvector可以实现向量存储和检索,使用pg_trgm基于三元组文本模糊匹配和相似度计算,结合GIN 索引和GiST索引实现全文检索 zhparser等分词插件的情况下,执行SELECT show_trgm('中文测试');时会发现结果为空,因此需要结合zhparser、jiebaR,或使用ElasticSearch等插件或工具实现中文分词/全文检索 测试 SELECT to_tsvector('chinese_zh', '上海自来水来自海上'); -- 分词结果:'上海':1 '来自':3 '自来水':2 -- 4.

    1K00编辑于 2025-06-23
  • 来自专栏Elastic Stack专栏

    改进 Elastic Stack 中的信息检索:混合检索

    Elasticsearch ®还具有强大的词汇检索功能和丰富的工具来组合不同查询的结果。在本博客中,我们介绍了混合检索的概念,并探讨了 Elasticsearch 中可用的两种具体实现。 混合检索尽管现代训练管道产生了在零样本场景中具有良好性能的检索器模型,但众所周知,词汇检索器(例如 BM25)和语义检索器(例如 Elastic Learned Sparse Encoder)在某种程度上是互补的 具体来说,如果假设检索到的相关文档之间比检索到的不相关文档之间出现更多匹配,那么结合检索方法的结果将提高相关性。 BM25 检索通常比语义检索更快,这一事实缓解了这一问题。我们的研究结果表明,倒数排名融合可以安全地用作有效的“即插即用”策略。 结果如表 4 所示。与单独的 Elastic Learned Sparse Encoder 相比,该方法的平均 NDCG@10 提高了 6%,比单独的 BM25 提高了 24%。

    3.4K31编辑于 2023-07-20
  • 来自专栏AI科技时讯

    图像检索:基于内容的图像检索技术(二)

    基于内容的图像检索技术 ? 相同物体图像检索 相同物体图像检索是指对查询图像中的某一物体,从图像库中找出包含有该物体的图像。 ,在进行检索时,物体的形变也会对检索结果造成很大的影响。 具有代表性的工作有词袋模型4(BoW, Bag of Words)、 局部特征聚合描述符5(VLAD, Vector of Locally Aggregated Descriptors)以及Fisher 为了更好的区分相同物体检索和相同类别检索这两种检索方式区,仍以图1.3左图所举的”蒙娜丽莎”为例,用户如果感兴趣的就是”蒙娜丽莎”这幅画,那么检索系统此时工作的方式应该是以相同物体检索的方式进行检索,但如果用户感兴趣的并不是 ,能够降低的维度还是有限的,因而对于这一类图像检索,同样有必要为它构建够高效合理的快速检索机制,使其适应大规模或海量图像的检索

    1.9K31发布于 2020-03-04
  • 来自专栏AI科技时讯

    图像检索:基于内容的图像检索技术(四)

    基于树的图像检索方法将图像对应的特征以树结构的方法组织起来,使得在检索的时候其计算复杂度降到关于图像库样本数目n的对数的复杂度。基于树结构的搜索方法有KD-树8、M-树9等。 虽然基于树结构的检索技术大大缩减了单次检索的响应时间,但是对于高维特征比如维度为几百的时候,基于树结构的索引方法其在检索时候的性能会急剧的下降,甚至会下降到接近或低于暴力搜索的性能,如表2.1所示,在LabelMe 相比基于树结构的图像检索方法,基于哈希的图像检索方法由于能够将原特征编码成紧致的二值哈希码,使得基于哈希的图像检索方法能够大幅的降低内存的消耗,并且由于在计算汉明距离的时候可以使用计算机内部运算器具有的 ,在LabelMe图像数据集上,相比于暴力搜索方法以及基于树结构的搜索方法,通过将图像的特征编码后进行搜索,在编码位数为30比特时基于哈希的搜索方法单次查询时间比暴力搜索以及基于树结构的方法降低了将近4个数量级 Lett., 1991, 40(4):175–179. GE T, HE K, SUN J. Graph Cuts for Supervised Binary Coding, Proc. Eur.

    1.9K11发布于 2020-03-18
领券