搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大语言模型
检索算法小结
在RAG中当然少不了检索。检索算法在信息检索、搜索引擎和推荐系统等领域中扮演着至关重要的角色。它们的核心任务是根据用户查询从大量数据中找出最相关的信息。本文就对检索算法进行以下小结。常见的检索算法确实可以理解为相似度计算的过程。在信息检索系统中，检索算法的主要目标是根据查询从大量文档中找到最相关的文档。这通常涉及计算查询和文档之间的相似度，并根据相似度对文档进行排序。常见检索算法和相似度计算方法布尔模型：简单且直观，布尔检索基于布尔逻辑，通过简单的布尔运算符（AND, OR, NOT）来判断文档是否匹配查询。它不使用相似度计算。 milvus库中检索度量方式以及索引类型在相似度度量( similarity metrics ) milvus 介绍两种 embeddings 形式，1. 浮点形式 embeddings 2. 度量方式 ( Metric Types )：L2 （欧氏距离）欧氏距离是向量空间中两点之间的直线距离，也称为 L2 距离或欧几里得距离。
86621编辑于 2024-07-01
来自专栏前后两端不设限
检索算法---顺序查找
顺序查找 function seqSearch(arr, data) { for (var i = 0; i < arr.length; ++i) { if (arr[i] == data) { return i; } } return -1; } 查找最大值或最小值 function findMin(arr) { var min = arr[0]; for (var i = 0; i < arr.length
43830编辑于 2022-12-24
来自专栏大猪的笔记
信息检索：布尔检索-建立倒排索引(2)
假定我们有3个文档： doc1 = ["1", "hello", "word", "i", "love", "dazhu"] doc2 = ["2", "hi", "i", "can", "speak" 合并单词表并排序(代码 give_index) 同理，处理doc2和doc3,合并所有结果并排序，可得一个如下的列表： ['can', '2'] ['can', '3'] ['dazhu', '1'] 因为已经进行排序，可以用简单的算法将相同词典项合并。 1', '2', '3']] ...... 取出 i 的倒排记录表：['1', '2', '3'] 2. 取出 can 的倒排记录表：['2', '3'] 3. 对这两个集合求交集 4.
1.6K20发布于 2019-11-21
来自专栏NLP小白的学习历程
VLAD算法简介图像检索
VLAD是vector of locally aggregated descriptors的简称，是由Jegou et al.在2010年提出，其核心思想是aggregated(积聚)，主要应用于图像检索领域 1.2 相关方法优缺点在深度学习时代之前，图像检索领域以及分类主要使用的常规算法有BoW、Fisher Vector及VLAD等。矩阵，其中k是聚类中心个数，d是特征维数(如sift是128维),随后将该矩阵扩展为一个(k*d)维的向量，并对其L2归一化，所得到的向量即为VLAD。 2 VLAD算法流程 (1) 读取图片文件路径及特征提取 (2) 使用聚类方法训练码本 (3) 将每张图片的特征与最近的聚类中心进行累加 *(4) 对累加后的VLAD进行PCA降维并对其归一化 *(5) 得到VLAD后，使用ADC方法继续降低储存空间和提高搜索速度其中步骤4、5可选，在步骤3得到残差累加向量后进行L2归一化即可用欧氏距离等计算两张图片的相似性从而实现图片检索一个简单的实现(基于sift
3.5K30发布于 2020-11-13
来自专栏desperate633
第2-3课检索数据检索列检索排序数据
这两课主要介绍sql中利用select语句对数据的简单检索。下面分别讨论不同类型的检索检索列单个列 select prod_id from Products; 多个列 select prod_id, prod_name, prod_price from Products ; 所有列 select * from Products; 检索不同值的列 select distinct vend_id from products; 检索前几列或者后几列 select prod_name from products limit 5; select prod_name from products limit 5 offset 5; 检索排序数据单个列排序 select prod_name
1.1K20发布于 2018-08-22
来自专栏前后两端不设限
检索算法---二分查找
startIndex = 0, stopIndex = items.length - 1, middle = Math.floor((stopIndex + startIndex) / 2) 1; } //recalculate middle（重新计算中项索引） middle = Math.floor((stopIndex + startIndex) / 2)
30340编辑于 2022-12-24
来自专栏进击的程序猿
经典检索算法：BM25原理
image.png 本文cmd地址：经典检索算法：BM25原理 bm25 是什么？ bm25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法，再用简单的话来描述下bm25算法：我们有一个query和一批文档Ds，现在要计算query和每篇文档D之间的相关性分数，只考虑词出现或者不出现，具体来说就是文档d在表示为向量$\vec x=(x_1,x_2,... bm25算法。参考 BM25 算法浅析搜索之 BM25 和 BM25F 模型经典搜索核心算法：BM25 及其变种信息检索导论
10.3K20发布于 2018-09-07
来自专栏SpringCloud专栏
2 Elasticsearch全文检索和匹配查询
官网的翻译可参考：http://blog.csdn.net/dm_vincent/article/details/41693125 Elasticsearch主要功能就是完成模糊检索、字符串匹配全文检索测试还接着上一篇的demo，在Controller的add方法加条数据 @RequestMapping("/add") public void testSaveArticleIndex 我们通过几个小测试来看看全文检索。文档2和文档3都包含了”brown”和”dog”一次，同时它们的title字段拥有相同的长度，因此它们的分值相同。文档1只包含了”brown”。无论你输入的是什么，至少有2个词条被匹配时，该文档才会被算作最终结果中的一员。 minimum_should_match参数非常灵活，根据用户输入的词条的数量，可以适用不同的规则。
1.7K20发布于 2019-01-17
来自专栏算法+
shazam音乐检索算法附完整c代码
而音乐检索算法就是为了提供比较人性化的方式帮忙搜索音乐。而shazam 这家公司就是第一个吃螃蟹的"人"。上面提供的链接里都提到了shazam 算法的思路，需要细节了解的可以移步上面的链接。 shazam 算法分为以下步骤: 1.进行fft变换 2.切分5个频段，取频段中比较有代表性的信息，一般为该频段中强度最大值。后面检索音频也就是简单的建立hash库，然后撞hash数量，评分。 hash命中越多就认为越相似。上图，感受一下，其实我感觉看图也不是很直观，哈哈哈哈。有另一个音频检索算法就是做了控制变量达到更加强大的鲁棒性。当然，我本人业余时间在研究自己构思的一个音频检索算法，还在开展中，算法复杂度当然会更高，但是效果和后续检索准确度会大有提升。上面提到的shazam和dejavu，本人以纯c 原汁原味实现之。
2.3K20发布于 2018-08-07
来自专栏企鹅号快讯
深度离散哈希算法，可用于图像检索！
「2」为了减少量化误差，我们在优化过程中保留了哈希编码的离散化这一特性。此外，我们还提出了一种交替优化方法，即使用坐标下降法优化目标函数。「3」大量的实验结果表明，我们的方法在图像检索问题上，取得了比现最好方法更好的结果，从而验证了我们方法的有效性。表 2：第二组实验设置下不同方法的 MAP。NUS-WIDE 数据集的 MAP 是根据返回的前 50，000 位邻近值计算的。DPSH * 表示重新运行 DPSH 作者提供的代码。 Deep supervised discrete hashing 论文地址：https://arxiv.org/abs/1705.10999 摘要：随着网络上图像和视频数据的快速发展，近几年图像及视频检索也被广泛的研究得益于深度学习的发展，深度哈希方法在图像检索方面也取得了一定的成果。然而，之前的深度哈希方法还是存在一些限制「例如，没有充分利用语义信息」。
2.6K60发布于 2018-02-28
来自专栏深度学习自然语言处理
字节跳动发布最新音乐检索系统ByteCover2，检索速度提高八倍
近期，字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。实验结果显示， PCA FC 能显著提升降维模型的检索性能，在保持检索性能不变的前提下向量尺寸可以被压缩八倍。 PRE-TRAINING WITH SWIN TRANSFORMER FOR MUSIC CLASSIFICATION》该篇文章提出了一种创新的、基于层级式 Transformer 的自监督音乐预训练算法在说话人日志赛道中，结合前端信号处理技术，团队提出一种融合声源定位信息的说话人日志方法，提高识别准确率；同时针对竞赛数据中存在的说话人重叠问题，提出一种多通道融合算法，减少重叠部分的说话人漏检，最后采用修改的 DOVER-Lap 算法对多套系统进行融合，最终在测试集上的 DER（说话人日志错误率）相比官方基线相对下降 53.7%。
1.2K10编辑于 2022-05-30
来自专栏技术总结
算法（2）
有两个算法 A 和 B ，假设两个算法的输入规模都是 n，算法 A 要做 2n+3 次操作，算法 B 要做 3n+1 次操作。觉得谁快？看下图： ? 而当 n = 2 时，两者效率相同；当 n > 2时，算法 A 就开始优于算法 B 了，随着 n 的增加，算法 A 比算法 B 越来越好了，得出结论，算法 A 好过算法 B 判断一个算法的效率时，函数中的常数和其他次要项常常可以忽略 2、在修改后的运行次数函数中，只保留最高阶项。 3、如果最高阶项存在且不是1，则去除与这个项相乘的常数，得到的结果就是大O阶 3、常数阶高斯算法，时间复杂度不是O(3)，而是O(1)。 //第二种算法 int sum = 0, n = 100; /*执行1次*/ sum = (1 + n) * n/2; /*执行1次*/ printf( 也就是说，有多少个2相乘后大于n,则会退出循环。由2× = n ，得到 x = ㏒2n (2缩小)。所以这个循环的时间复杂度为O(㏒n)。
1.1K90发布于 2018-05-22
来自专栏机器之心
检索速度提高八倍，字节跳动发布最新音乐检索系统ByteCover2
近期，字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。实验结果显示， PCA FC 能显著提升降维模型的检索性能，在保持检索性能不变的前提下向量尺寸可以被压缩八倍。 PRE-TRAINING WITH SWIN TRANSFORMER FOR MUSIC CLASSIFICATION》该篇文章提出了一种创新的、基于层级式 Transformer 的自监督音乐预训练算法在说话人日志赛道中，结合前端信号处理技术，团队提出一种融合声源定位信息的说话人日志方法，提高识别准确率；同时针对竞赛数据中存在的说话人重叠问题，提出一种多通道融合算法，减少重叠部分的说话人漏检，最后采用修改的 DOVER-Lap 算法对多套系统进行融合，最终在测试集上的 DER（说话人日志错误率）相比官方基线相对下降 53.7%。
79010编辑于 2022-05-25
来自专栏大数据杂货铺
全文检索、向量检索和混合检索的比较分析
全文检索全文搜索是指将部分或全部文本查询与数据库中存储的文档进行匹配。与传统的数据库查询相比，全文搜索即使在部分匹配的情况下也能提供结果。 Elasticsearch 用户越来越多地使用不同类型信息的搜索检索 — BM25 用于文本，向量搜索用于密集向量。混合搜索技术通常会提供更好的结果：对多个 BIER 数据集进行基准测试显示，结合 BM25 和基于 ELSER 的排名时，相关性有所提高，现在用户甚至可以更轻松地组合所有这些检索方法。
6.3K10编辑于 2024-04-24
来自专栏啦啦啦啦前端
信息检索格式布尔检索式
信息检索格式布尔检索式名称符号表达式功能逻辑与 * 或and AB 同时含有提问词A和B的文献，为命中文献逻辑或 + 或or A+B 凡是含有提问词A或B的文献，为命中文献逻辑非这个算法在微软Bing搜索里面可行，但是在百度里面搜索依然包括篮球二字，这里未解。还有个注意点，符号的前面要加空格隔开后面紧跟着要搜索的内容。
1.6K40编辑于 2023-02-11
来自专栏johnhuster
select2支持中英文检索
最近在使用英文检索select2（V3.5版本）时发现一个问题：多音字，重庆在有的拼音库里面被翻译成了重(zhong)庆，无奈只有同时支持中文检索，select2如何支持中英文检索呢,下面直接如题，上代码 var mod=ZhToPinyin(text); var tf1=mod.a.toUpperCase().indexOf(term.toUpperCase())==0; var tf2= mod.b.toUpperCase().indexOf(term.toUpperCase())==0; return (tf1||tf2); } } 重写select2插件的
78830编辑于 2022-03-29
来自专栏AI科技评论
ICASSP 2022丨字节跳动最新音乐检索系统ByteCover2，检索速度提高八倍
近期，字节跳动火山语音团队的最新音乐检索系统ByteCover2入选了ICASSP 2022。实验结果显示， PCA-FC能显著提升降维模型的检索性能，在保持检索性能不变的前提下向量尺寸可以被压缩八倍。 SELF-SUPERVISED PRE-TRAINING WITH SWIN TRANSFORMER FOR MUSIC CLASSIFICATION 该篇文章提出了一种创新的、基于层级式Transformer的自监督音乐预训练算法在说话人日志赛道中，结合前端信号处理技术，团队提出一种融合声源定位信息的说话人日志方法，提高识别准确率；同时针对竞赛数据中存在的说话人重叠问题，提出一种多通道融合算法，减少重叠部分的说话人漏检，最后采用修改的 DOVER-Lap算法对多套系统进行融合，最终在测试集上的DER（说话人日志错误率）相比官方基线相对下降53.7%。
1.4K20编辑于 2022-05-27
来自专栏AngelNI
排序算法-2
start++] =arr[p]; } } void mergesort(ll *A,ll start,ll end) { if(start<end) { ll mid = (start+end)/2; = a[i]; a[i] = a[j]; a[j] = t; } void heapify(ll *tree,ll n,ll i) { if(i>=n) return ; ll c1 = 2* i+1; ll c2 = 2*i+2; ll max = i; if(c1<n&&tree[c1]>tree[max]) { max = c1; } if(c2<n&&tree[c2]> tree[max]) { max = c2; } if(max ! = i) { swap(tree,max,i); heapify(tree,n,max); } } void heapsort(ll *a,ll n) { for(ll i =n/2-1;
30610发布于 2020-04-14
来自专栏修也的进阶日记
算法手记2
NC296 最小花费爬楼梯牛客网题目链接(点击即可跳转):NC296 最小花费爬楼梯题目详情: 本题详情如下图: 题目思路: 本题解题思路如下: 基础动态规划,1.写出动态转换方程2. vector<int>& cost) { vector<int> dp; dp.resize(cost.size()+1); for(int i=2; i<=cost.size();i++) dp[i]=min(dp[i-1]+cost[i-1],dp[i-2]+cost[i-2]); return dp[cost.size ()]; } }; 结语说点啥好呢...不断修补细节然后提高效率,不断学习算法并应用出肌肉记忆.
13200编辑于 2025-03-14
来自专栏Article
算法 Day 2
冒泡排序平均时间复杂度 O(n2) 空间复杂度 O(1) function bubbleSort(arr) { var i = arr.length; var position =
13010编辑于 2022-06-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

检索算法小结

检索算法---顺序查找

信息检索：布尔检索-建立倒排索引(2)

VLAD算法简介图像检索

第2-3课检索数据检索列检索排序数据

检索算法---二分查找

经典检索算法：BM25原理

2 Elasticsearch全文检索和匹配查询

shazam音乐检索算法附完整c代码

深度离散哈希算法，可用于图像检索！

字节跳动发布最新音乐检索系统ByteCover2，检索速度提高八倍

算法（2）

检索速度提高八倍，字节跳动发布最新音乐检索系统ByteCover2

全文检索、向量检索和混合检索的比较分析

信息检索格式布尔检索式

select2支持中英文检索

ICASSP 2022丨字节跳动最新音乐检索系统ByteCover2，检索速度提高八倍

排序算法-2

算法手记2

算法 Day 2

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

检索算法小结

检索算法---顺序查找

信息检索：布尔检索-建立倒排索引(2)

VLAD算法简介 图像检索

第2-3课 检索数据检索列检索排序数据

检索算法---二分查找

经典检索算法：BM25原理

2 Elasticsearch全文检索和匹配查询

shazam音乐检索算法 附完整c代码

深度离散哈希算法，可用于图像检索！

字节跳动发布最新音乐检索系统ByteCover2，检索速度提高八倍

算法（2）

检索速度提高八倍，字节跳动发布最新音乐检索系统ByteCover2

全文检索、向量检索和混合检索的比较分析

信息检索格式 布尔检索式

select2支持中英文检索

ICASSP 2022丨字节跳动最新音乐检索系统ByteCover2，检索速度提高八倍

排序算法-2

算法手记2

算法 Day 2

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

VLAD算法简介图像检索

第2-3课检索数据检索列检索排序数据

shazam音乐检索算法附完整c代码

信息检索格式布尔检索式