首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大猪的笔记

    信息检索:布尔检索-建立倒排索引(2)

    假定我们有3个文档: doc1 = ["1", "hello", "word", "i", "love", "dazhu"] doc2 = ["2", "hi", "i", "can", "speak" 合并单词表并排序(代码 give_index) 同理,处理doc2和doc3,合并所有结果并排序,可得一个如下的列表: ['can', '2'] ['can', '3'] ['dazhu', '1'] 最终得到结果如下: ['can', ['2', '3']] ['dazhu', ['1', '3']] ['hello', ['1', '3']] ['hi', ['2', '3']] ['i', [' 1', '2', '3']] ...... 取出 i 的倒排记录表:['1', '2', '3'] 2. 取出 can 的倒排记录表:['2', '3'] 3. 对这两个集合求交集 4.

    1.7K20发布于 2019-11-21
  • 来自专栏desperate633

    2-3课 检索数据检索检索排序数据

    这两课主要介绍sql中利用select语句对数据的简单检索。 下面分别讨论不同类型的检索 检索列 单个列 select prod_id from Products; 多个列 select prod_id, prod_name, prod_price from Products ; 所有列 select * from Products; 检索不同值 的列 select distinct vend_id from products; 检索前几列或者后几列 select prod_name from products limit 5; select prod_name from products limit 5 offset 5; 检索排序数据 单个列排序 select prod_name

    1.2K20发布于 2018-08-22
  • 批量关键词检索:使用腾讯云ADP搭建智能信息检索智能

    腾讯云智能体开发平台(TencentCloudADP)构建的批量关键词检索智能体是新一代智能信息检索解决方案。 同时调用多个数据源API进行并行检索智能负载均衡:动态分配检索任务,避免API限流●实时结果汇总:实时收集和初步整理各源检索结果第三层:智能分析输出层●相关性智能评估:基于AI算法评估结果与关键词的相关性 请对以下批量关键词进行智能预处理:输入关键词列表:{keyword_list}处理要求:1.清洗无效字符和格式问题2.去除重复和高度相似的关键词3.进行同义词扩展(每个关键词最多扩展3个相关词)4.按照检索难度和重要性进行分级 ,为精准检索提供智能支撑。 Prompt模板:作为结果汇总专家,请对多源检索结果进行智能去重和汇总:检索结果:{search_results}汇总任务:1.识别和去除重复内容(相似度>85%)2.合并相同内容的多源信息3.保留每条结果的最佳版本

    23710编辑于 2026-03-24
  • 来自专栏SpringCloud专栏

    2 Elasticsearch全文检索和匹配查询

    官网的翻译可参考:http://blog.csdn.net/dm_vincent/article/details/41693125 Elasticsearch主要功能就是完成模糊检索、字符串匹配 全文检索测试 还接着上一篇的demo,在Controller的add方法加条数据 @RequestMapping("/add") public void testSaveArticleIndex 我们通过几个小测试来看看全文检索。 文档2和文档3都包含了”brown”和”dog”一次,同时它们的title字段拥有相同的长度,因此它们的分值相同。 文档1只包含了”brown”。 无论你输入的是什么,至少有2个词条被匹配时,该文档才会被算作最终结果中的一员。 minimum_should_match参数非常灵活,根据用户输入的词条的数量,可以适用不同的规则。

    1.7K20发布于 2019-01-17
  • 来自专栏muller的测试分享

    人工智能|RAG 检索增强生成

    它能够通过检索大规模文档集合来提供准确的答案,无需针对每个问题进行特定训练。 智能助手和虚拟代理(Intelligent Assistants and Virtual Agents):RAG 可以用于构建智能助手或虚拟代理,结合聊天记录回答用户的问题、提供信息和执行任务,无需进行特定任务微调 信息检索(Information Retrieval):RAG 可以改进信息检索系统,使其更准确深刻。用户可以提出更具体的查询,不再局限于关键词匹配。 让其变的易检索。这个预处理的过程,就使用了向量数据库以及embedding。 相关资料RAG 官方文档说明总结理解什么是 RAG 检索增强。理解 RAG 检索增强应用场景。了解 RAG 检索增强有哪些相关的使用方法。

    70310编辑于 2024-07-24
  • 来自专栏深度学习自然语言处理

    字节跳动发布最新音乐检索系统ByteCover2检索速度提高八倍

    ---- 机器之心发布 机器之心编辑部 翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。 近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。 实验结果显示, PCA FC 能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩八倍。 除了 ByteCover2,此次,字节跳动火山语音团队还有多篇论文被 ICASSP 2022 收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向,下面进行简单介绍。 关于字节跳动火山语音团队 字节跳动火山语音团队,原字节跳动 AI Lab Speech & Audio 智能语音与音频团队,致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索智能教学等多种

    1.2K10编辑于 2022-05-30
  • 来自专栏机器之心

    检索速度提高八倍,字节跳动发布最新音乐检索系统ByteCover2

    机器之心发布 机器之心编辑部 翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。 近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。 实验结果显示, PCA FC 能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩八倍。 除了 ByteCover2,此次,字节跳动火山语音团队还有多篇论文被 ICASSP 2022 收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向,下面进行简单介绍。 关于字节跳动火山语音团队 字节跳动火山语音团队,原字节跳动 AI Lab Speech & Audio 智能语音与音频团队,致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索智能教学等多种

    84810编辑于 2022-05-25
  • 来自专栏数据挖掘

    向量相似度检索智能驾驶领域的应用

    行业内智能驾驶技术发展到一定阶段既会存在数据挖掘的挖掘的需求,尤其针对边缘case的挖掘,如何利用互联网技术实现智能驾驶场景的挖掘是我刚入智能驾驶行业遇见的首要问题。 背景智能驾驶领域的数据挖掘大致可分为两种:面向感知领域的静态场景挖掘,例如:路面反光场景、眩光场景、镜头脏污场景、异型车、隧道场景、树荫遮挡场景、带草砖路面场景、高架场景等。 本文借用基于向量相似度检索技术实现以图搜图、以文搜图等技术,并赋能智能驾驶场景挖掘,这对静态稀有场景的挖掘至关重要。 实践证明以图搜图技术较适合图片中大粒度特征的数据挖掘,例如‘带草砖的车位’、‘树荫挖掘’等,针对地锁、锥桶等小目标采用相似度检索技术仍是业界难题,针对小目标的挖掘较适合用YOLO系列的模型,或者使用clip 图像特征提取:模型DinoV2,解决大面积场景挖掘,例如,积水、夜晚、草砖车位等;2. 向量数据库:Milvus;3.

    30910编辑于 2025-06-06
  • 腾讯云数据万象智能检索服务概要

    一、 产品定位与核心亮点 数据万象-多模态智能检索 是腾讯云提供的一项基于人工智能的数据处理与检索服务。其核心技术属性为结合对象存储(COS)的一站式数据处理智能平台。 核心商业差异化卖点在于其自研的特征提取服务及检索引擎,专门针对中文电商场景优化,实现跨模态的智能检索。 二、产品应用场景 受众:互联网行业客户,特别是电商平台、视频平台。 产品优势 特征提取精准:采用智能抠图技术,先抠取有效图像主体再提取特征,提升特征库准确性。 检索方式灵活多样: 支持文本搜索和以图搜图。 提供搜前分类提示功能,提升文本搜索效率。 解决方案:使用数据万象的智能检索服务,包括特征库构建和跨模态检索。 成效: 海量数据高效分析:能快速、精准地从数十亿文件中查询指定条件的文件。 智能相册:可根据媒体文件的拍摄时间、地点、人物等信息构建智能相册。 文件管理:提升数据管理和分析效率,挖掘数据价值。

    6300编辑于 2026-05-31
  • 来自专栏产品笔记

    RAG智能问答系统为什么要使用混合检索

    检索增强生成简称RAG(Retrieval-augmented Generation),RAG为大语言模型安装了知识外挂,基础大语言模型不用训练,通过RAG技术与大语言模型结合在回答问题的时候,可以通过企业内部的知识库检索相关和最新的信息来生成内容 01 — 为什么要用混合检索? 在RAG智能问答系统中,RAG检索环节中的检索的方式采用向量检索,即通过语义相关度匹配的方式进行检索。 在文本搜索场景,首先需要确保最相关的结果能够出现在检索的结果中。向量检索和关键词检索各有优势,而引入混合检索结合了两种搜索技术的优点,并且弥补了各自的缺点。 02 — 什么是混合检索? 混合检索是结合了两种或者多种搜索算法提高搜索结果相关性的搜索技术。而在RAG系统中,混合搜索最常见指向量检索和关键词检索的组合。 不同的检索系统在寻找文本中各自擅长之间存在不同的联系,没有任何一种检索模式能够适用全部的情景,混合检索通过多个不同的检索系统组合,结合不同检索系统的优势,实现多个检索技术直接的互补。

    84510编辑于 2024-03-06
  • 来自专栏啦啦啦啦前端

    信息检索格式 布尔检索

    信息检索格式 布尔检索式 名称 符号 表达式 功能 逻辑与 * 或and AB 同时含 有提问词A和B的文献,为命中文献 逻辑或 + 或or A+B 凡是含有提问词A或B的文献,为命中文献 逻辑非

    1.6K40编辑于 2023-02-11
  • 来自专栏johnhuster

    select2支持中英文检索

    最近在使用英文检索select2(V3.5版本)时发现一个问题:多音字,重庆在有的拼音库里面被翻译成了重(zhong)庆,无奈只有同时支持中文检索,select2如何支持中英文检索呢,下面直接如题,上代码 var mod=ZhToPinyin(text); var tf1=mod.a.toUpperCase().indexOf(term.toUpperCase())==0; var tf2= mod.b.toUpperCase().indexOf(term.toUpperCase())==0; return (tf1||tf2); } } 重写select2插件的

    82430编辑于 2022-03-29
  • 来自专栏大数据杂货铺

    全文检索、向量检索和混合检索的比较分析

    全文检索 全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比,全文搜索即使在部分匹配的情况下也能提供结果。 矢量搜索 矢量搜索是人工智能驱动的搜索方法。它不是查找与文本查询匹配的文档,而是允许查找具有相似语义的文档。这是通过建立大型语言模型(LLM) 提供的文本语义理解来实现的。 它建立在全文搜索的可访问性、即输入即搜索体验的基础上,并集成了人工智能搜索支持的增强发现功能。 Elasticsearch 用户越来越多地使用不同类型信息的搜索检索 — BM25 用于文本,向量搜索用于密集向量。 混合搜索将全文搜索的可访问性与人工智能实现的改进发现相结合。 混合搜索是现代搜索方法,将最先进的搜索功能统一到单个 API 后面。

    6.5K10编辑于 2024-04-24
  • 来自专栏AI科技评论

    ICASSP 2022丨字节跳动最新音乐检索系统ByteCover2检索速度提高八倍

    翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。 近期,字节跳动火山语音团队的最新音乐检索系统ByteCover2入选了ICASSP 2022。 除了ByteCover2,此次,字节跳动火山语音团队还有多篇论文被 ICASSP 2022收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向: 2 智能音乐 HTS-AT:一种用于声音分类和检测的分层标记语义音频 关于字节跳动火山语音团队 字节跳动火山语音团队,原字节跳动 AI Lab Speech & Audio 智能语音与音频团队,致力于提供音频理解、音频合成、对话交互、音乐检索智能教学等多种AI能力与方案 团队专注研发行业领先的 AI 智能语音技术,不断探索AI 与业务场景的高效结合。

    1.4K20编辑于 2022-05-27
  • 来自专栏AI研思录

    颠覆传统检索:RAPTOR检索树提升检索准确率20%!

    然而,现有的检索增强方只能检索几个简短的、连续的文本块,这对于需要整合文本多个部分的知识的问题是不够的,限制了它们表示和利用大规模语义结构的能力。 user Write a summary of the following, including as many key details as possible: {context}: 递归构建:重复步骤2, 计算查询向量与这些子节点的向量嵌入之间的余弦相似度; 选择与查询余弦相似度分数最高的前 k 个子节点,形成集合 S2; 对 d 层递归地继续此过程,生成集合 S1, S2, . . . , Sd; Concatenate 采用递归聚类和汇总技术,RAPTOR创建了一个分层树结构,能够跨检索语料库的各个部分综合信息。在查询阶段,RAPTOR 利用此树结构进行更有效的检索。 实验表明,使用递归总结的检索方法在多个任务上相较于传统的检索增强语言模型提供了显著的改进。在涉及复杂、多步骤推理的问题解答任务中,展示了最优的结果。

    89710编辑于 2025-02-20
  • 来自专栏ATYUN订阅号

    人工智能平台Jane为企业提供高效信息检索

    这就是前Answers.com首席执行官David Karandish创立了Jane.ai的原因,这是一个可以从云存储提供商,团队等索引数据的人工智能平台。 Jane是一个直观,智能的AI,可以让员工即时访问他们需要的信息,以便完成他们的工作。“ Jane.ai服务分为两部分。

    93020发布于 2018-07-27
  • 来自专栏TechLead

    深入探索智能问答:从检索到生成的技术之旅

    在本文中,我们深入探讨了自然语言处理中的智能问答系统,从其发展历程、主要类型到不同的技术实现。文章详细解析了从基于检索、对话到基于生成的问答系统,展示了其工作原理和具体实现。 2. 知识库和数据库 为了回答问题,智能问答系统通常需要访问大型的知识库或数据库,这些知识库包含了大量的事实、数据和信息。 例子:当用户询问:“苹果公司的创始人是谁?” ---- 三、智能问答系统的主要类型 智能问答系统因应用场景、数据源和技术手段的不同而存在多种类型。以下是其中的一些主要类型及其特点: 基于知识库的问答系统: 依赖预定义的知识库来检索答案。 response2, updated_context = dialog_based_qa_system(question2) print(response2) # 输出:那你可能会喜欢星际穿越。 实际的seq2seq模型实现也要复杂得多。使用如BERT、GPT-2或T5等预训练模型可以进一步提高生成问答系统的性能。

    2.5K30编辑于 2023-10-21
  • 来自专栏Yunfeng's Simple Blog

    dinov2_retrieval:一个基于DINOv2 的图片检索应用

    为了展示 DINOv2 强大的特征提取能力, Meta 提供了一个在线 Demo,上传一张图片,就能从一些艺术画作中检索出最相似的作品。 整体思路是很简单直接的,经过一天的开发,终于完成了一个相对完善的Python工具 dinov2_retrieval,能够检索若干张图片在测试数据集中最相似的图。 写完后拿最近拍的一些随机照片跑了一下,检索结果还是挺不错的。 DINOv2 提取的特征还是更准确一些,检索结果也更好。 两者都可以是单张图片或者目录: dinov2_retrieval -q /path/to/query/image -d /path/to/database/images 检索得到的结果会保存在output

    1.1K20编辑于 2023-10-23
  • 网页|高级检索与专业检索

    示例:知网上检索关键词包括“人工智能”,但不包括“大数据”,作者单位为“清华大学”,发表时间从2019年到2020年。 ? 图1.3 知网高级检索示例图2 2、专业检索 专业检索就是运用检索表达式实现的检索方式。这种检索方式可以让通过运用检索字段精确检索需要的内容。 ? ,; 示例1:知网检索主题包含”人工智能“及”大数据“并且全文不包括”科学“的文献专业检索式 专业检索式:SU=('人工智能'*'大数据')-'研究'。 检索结果: ? 图2.3 示例1检索结果 示例2:百度检索在网址www.baidu.com内搜索标题包括人工智能、大数据但不包括发展,搜索格式为.doc的内容。 图2.4 示例2检索结果 结语 运用高级检索和专业检索可以让搜索更加详细。

    4.4K20发布于 2020-07-16
  • 来自专栏聊点学术

    Pubmed检索网站慢成乌龟了?试试这2

    有些小伙伴在使用过程中,发现Pubmed访问和检索慢,有种村网通的感觉。 ‍ ? ‍ 以下介绍2种方法,可以一定程度加快访问速度,缓解燃眉之急。 ---- 方法一、电脑连接手机热点 ? 但打开pubmed网站进行检索,用时不到2秒。 ? 所以,个人推荐在访问速度较慢时,可断开公共网络或WIFI,通过电脑连接手机热点,你会发现另一个世界。 也就是说我们每次打开pubmed网站,电脑都会先解析pubmed网址,获取各种各样的服务器IP,然后才会呈现出你检索的信息。 在网速良好的情况下,这个解析过程是降低访问速度的主要原因。

    3.3K21发布于 2020-08-04
领券