搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Reinvent Data Science
详解如何通过稀疏向量优化信息检索
03.学习得到的稀疏向量：将传统稀疏向量与上下文信息相结合结合 Out-of-Domain 检索的精确词匹配技术，如词袋模型和 BERT 等稠密向量检索方法进行语义检索，长期以来一直是信息检索领域的一项主要任务与仅依赖于统计方法（如 BM25）生成的传统稀疏向量不同，学习得到的稀疏 embedding 在保留关键词搜索能力的同时，丰富了稀疏表示的上下文信息。来自 BGE-M3 的研究显示，学习得到的稀疏向量在多语言或跨语言检索任务中优于稠密向量，在准确性方面表现更佳。仔细查看结果：在稀疏检索中，7 个与朱熹相关的故事都排在前 10 名。而在稠密检索中，只有 2 个故事位于前 10。 Learned 稀疏向量检索。
1.9K20编辑于 2024-07-20
来自专栏AI大模型应用开发炼丹房
解锁AI检索的7大Embedding技术：从稀疏到多向量，一文掌握
关键词式稀疏向量）Sparse Embedding 是一种基于关键词匹配的稀疏向量表示方法，其维度通常超过 50,000 维，且95%以上的位置为零值。然而，它仅支持精确关键词匹配，无法处理同义词或句式变化的情况，同时高维稀疏性也会导致存储和索引成本急剧上升。以下图的这个简易倒排索引所示，我们按照列为单元来看倒排索引，那么每列就可以表征为一个文档所包含的单词列表，这其实就是一种稀疏向量。图中的 3 个红色框分别代表了文档 ID 为 1，3，7 的三个不同的稀疏向量。而倒排索引则提供了稀疏向量的高效检索方式。最终部署时，采用 Sparse 与 Dense 结合的混合排序（Hybrid Ranking）策略往往最为稳妥：稀疏向量保证精度，稠密向量保证召回率，并通过权重调整平衡结果。
1.4K21编辑于 2025-09-12
来自专栏自然语言处理
SPLADE 在稀疏向量搜索中的原理与应用详解
稀疏向量因其高效性、可解释性和精确的词语匹配特性，在信息检索领域曾广受欢迎。然而，它们远非完美。稀疏向量搜索的工作方式与人类的自然表达存在脱节。稀疏向量与稠密向量在信息检索中，向量嵌入（Vector Embeddings）将文档和查询表示为数值向量格式。这种格式使得我们能够在向量数据库中通过计算相似度来检索相似的向量。稀疏向量和稠密向量是向量表示的两种不同形式，各有优缺点。稀疏向量包含很多零值，非零值比例非常小。 TF-IDF 或 BM25 等稀疏向量具有高维度，但包含的非零值非常少（因此得名“稀疏”）。这主要有三个原因： SPLADE 查询和文档向量中的非零值数量通常多于传统稀疏向量，而现有的稀疏检索系统并未针对这一点进行优化。非零值的分布偏离了传统稀疏检索系统所预期的分布，这也会导致速度变慢。向量比较示例让我们看看如何实际比较我们的稀疏向量。我们将定义三个短文本。
79600编辑于 2025-07-12
来自专栏NLP/KG
多维度信息捕捉：利用向量、稀疏向量、全文搜索及张量实现RAG的极致性能
另一种就是引入稀疏向量，跟稠密向量组合到一起提供混合搜索（hybrid search）。，似乎稠密向量 + 稀疏向量就是更好的多路召回方案，采用全文搜索 + 稠密向量，似乎没有必要？因此，近期 IBM 的研究文章（参考文献 [3]）对比了各种召回方式的组合，包括 BM25，稠密向量，BM25 + 稠密向量，稠密向量 + 稀疏向量，以及 BM25 + 稠密向量 + 稀疏向量，最终得出结论另一种是 Tensor 索引， Infinity 采用 [EMVB]技术（参考文献 [7]）实现了 [Tensor Index]。下图是 Infinity 跟知名向量数据库 Qdrant 在稀疏向量索引上的性能评测：由此可见，在稠密向量、稀疏向量、全文搜索三种召回手段上， Infinity 的性能均达到了极致，再加上强大的多路召回能力
1.2K10编辑于 2025-04-22
来自专栏Michael阿明学习之路
两个稀疏向量的点积（哈希）
题目给定两个稀疏向量，计算它们的点积（数量积）。实现类 SparseVector： SparseVector(nums) 以向量 nums 初始化对象。 dotProduct(vec) 计算此向量与 vec 的点积。稀疏向量是指绝大多数分量为 0 的向量。你需要高效地存储这个向量，并计算两个稀疏向量的点积。进阶：当其中只有一个向量是稀疏向量时，你该如何解决此问题？
1.2K20发布于 2021-09-06
来自专栏机器学习算法与Python学习
支持向量机之SMO-------7
上次详细的介绍了用最小二乘法求解结构风险最小化问题的分类支持向量机，并在文章最后给出了求解对偶问题的序列最小优化(Sequential Minimal Optimization, SMO)算法解的形式 Minimal Optimization: A Fast Algorithm for Training Support Vector Machines》的论文中提到的比较快的二次规划优化算法，特别针对SVM和数据稀疏时性能更优 2. (2)式表明了是支持向量，在边界上。 3. (3)式表明了是在两条边界之间。而最优解需要满足KKT 条件，即上述3 个条件都得满足，以下几种情况出现将会出现不满足： ?
76750发布于 2018-04-04
来自专栏MyTechnology
稀疏数组
1.1 稀疏数组介绍当一个数组中大部分元素为０，或者为同一个值的数组时，可以使用稀疏数组来保存该数组。将i存到稀疏数组[0][0]的位置将j存到稀疏数组[0][1]的位置将count存到稀疏数组[0][2]的位置将各个有效值的行列存到稀疏数组下一行，例如[1][0]=行，[1][1]=列，[1][ 首行解释 6代表二维数组中一共6行 7代表二维数组中一共7行 8代表二维数组中一共8个有效值第二行及之后的解释 0和3表示在二维数组中的坐标，值为22。 1.2 转换思路二维数组转稀疏数组的思路：遍历原始的二维数组，得到有效数据的个数sum 根据sum就可以创建稀疏数组sparseArr int[sum+1][3] 将二维数组的有效数据数据存入到稀疏数组 11 * 11 //0: 表示没有棋子 //1: 表示黑子 //1: 表示蓝子 int chessArr1[][] = new int[7]
61130发布于 2021-01-18
来自专栏生如夏花绚烂
稀疏数组
（稀疏数组）中，从而缩小程序的规模如下例：将一个二维数组转换为稀疏数组稀疏数组第一行保存的值是二维数组有多少行和列，有多少个不同的值。原先的二维数组是7*6 = 42，转换为稀疏数组后变成了13*3 = 39 注意点 1.可以看到原来的二维数组经过压缩后变成了39，似乎也没有减少多少，当然这里还好至少压缩了吧可如果原来二维数组有 13个有意义的值，那么原来的二维数组还是 7*6=42,而转换后稀疏数组则是 14*3=42,如果原来的二维数组有14、15、16、...个等有意义的值，那么稀疏数组的大小将会超过原先二维数组的大小，这里就得不偿失了 2.如果反过来原来二维数组的有效值只有8个，那么原来的二维数组还是 7*6=42，如果转换为稀疏数组则是9*3=27，可以看到有明显的压缩了。这里就得到两个结论：二维数组的有效值越少，转换为对应的稀疏数组就越高效稀疏数组适用于空数据较多的情况下在使用稀疏数组之前一定要具体问题具体分析，不能一股脑的用！
65220编辑于 2022-09-14
来自专栏Java架构师必看
稀疏数组
，2020.2 IDEA 激活码一、稀疏数组的定义 ---- 稀疏（sparsearray）数组：可以看做是普通数组的压缩，但是这里说的普通数组是值无效数据量远大于有效数据量的数组。当遇到此种情况时，可以使用稀疏数组。 ? 当一个数组中大部分元素为0，或者为同一个值的数组时，可以使用稀疏数组来保存该数组。二、应用实例 ---- 我们将下图所示的棋盘使用稀疏数组进行存盘退出操作： ? 【1】将上面类似的二位数组棋盘保存到稀疏数组中，并存放至外部备份文件 sparsearray.text 中：稀疏数组可以简单的看作为是压缩，在开发中也会使用到。【3】将稀疏数组文件中的内容恢复至传统的二维数组棋盘； /** * 将稀疏数组文件中的内容恢复至传统的二维数组棋盘 */ public class SparseArrayClass { public
85030发布于 2021-04-30
来自专栏学习笔记持续记录中...
稀疏数组
当一个数组中大部分元素为0，或者为同一个值的数组时，可以使用稀疏数组来保存该数组。稀疏数组的处理方法是： 1）记录数组一共有几行几列，有多少个不同的值 2）把具体不同值的元素的行列及值记录在一个小规模的数组中，从而缩小程序的规模。 ? 二维数组转稀疏数组 public class SpareseArray { public static void main(String[] args) { /** d\t",data); } System.out.println(); } /** * 将二维数组转稀疏数组创建稀疏数组，行数=sum+1 ，多出来的1行是对稀疏数组中总行数、总列数以及非0个总个数的 sparseArr[0][0] = chessArr1.length; sparseArr
50910发布于 2020-03-17
来自专栏机器学习/数据可视化
吴恩达笔记7_支持向量机
吴恩达机器学习-7-支持向量机SVM 本周主要是讲解了支持向量机SVM的相关知识点硬间隔支持向量软间隔对偶问题优化目标Optimization Objectives 主要是讲解如何从逻辑回归慢慢的推导出本质上的支持向量机支持向量机 ? 根据逻辑回归推导得到的支持向量机的公式： ? 两个cost函数是上面提到的两条直线。间隔和支持向量注释：本文中全部采用列向量： ? 划分超平面的的线性描述： {w\cdot x+b=0} W称之为法向量（看做是列向量），决定平面的方向；b是位移项，决定了超平面和原点之间的距离。空间中任意一点x到超平面(w,b)的距离是： ? 间距margin 求解间距margin就是求解向量{({x_+}-{x_-})}在法向量上的投影 ? 决策边界上的正例表示为： ? 决策边界行的负例表示为： ?
92520发布于 2021-03-02
来自专栏半月无霜
稀疏数组
稀疏数组一、介绍稀疏数组可以看作是普通数组的压缩，当一个数组中大部分元素为0或同一个值时，可用稀疏数组来保存该数组。由此可以发现，当一个数组上出现大量无用的数组时，我们可以使用一些方法将其压缩成稀疏数组进行存储，等到使用的时候再进行解压还原。，里面的有效值个数有三个，那么转为稀疏数组后，将会变成一个4*3的稀疏数组。，如下图所示由此可以分析出来，将二维数组转换成为稀疏数组只需要这么几步就可以成功。遍历原数组，得到原数组中有效值的个数num 创建一个稀疏数组，大小为(num+1)*3 稀疏数组的第0行存放，原数组的行个数，列个数，以及有效值的个数将有效值的行、列、值转换写入稀疏数组中
57620编辑于 2023-03-03
来自专栏生物信息学、python、R、linux
稀疏矩阵
在矩阵中，如果数值为0的元素数目远远多于非0元素的数目，并且非0元素分布无规律时，则称该矩阵为稀疏矩阵（sparse matrix）；与之相反，若非0元素数目占大多数时，则称该矩阵为稠密矩阵。当一个矩阵中含有大量的0值时，可以将矩阵以稀疏矩阵的方式存储以解决资源。在R中，可以用Matrix这个包, 它可以将矩阵转化为稀疏矩阵。 #转化成稀疏矩阵，可以看到0变成了点 library(Matrix) sparseM= Matrix(M) class(sparseM) sparseM ?
1K20发布于 2020-11-24
来自专栏JusterZhu
02 稀疏数组
2.问题分析上面棋盘可用二维数组进行记录，但是二维数组的很多值是默认值0，因此记录了很多没有意义的数据->稀疏数组 3.基本介绍当一个数组中大部分元素为0，或者为同一个值的数组时，可以使用稀疏数组来保存该数组 4.应用实例（1）使用稀疏数组，来保留类似前面的二维数组（棋盘、地图等）（2）把稀疏数组存盘，并且可以重新恢复原来的二维数组 public class MySparseArray { int[12,12]; public MySparseArray() { /* * exsmple：5 row, 7 cloum * 1 white 2 black */ SparseArray[5, 7] = 1; SparseArray [7, 5] = 1; SparseArray[7, 9] = 1; SparseArray[7, 11] = 1; SparseArray
48010编辑于 2022-12-07
来自专栏全栈程序员必看
数组 – 稀疏数组
文章目录一，稀疏数组 1.定义 2.存储 3.存储方式 1.普通存储 2.链式存储 a.普通链式存储 b.行式链式存储 c.十字链式存储 4.代码实现 3.将稀疏数组存到此磁盘中 4.从磁盘中读取稀疏数组 ---> 数组中有很多无效数据，压缩数组 * @Author: Kevin * @CreateDate: 2019/7/2 22:39 * @UpdateUser: Kevin * @UpdateDate : 2019/7/2 22:39 * @UpdateRemark: 修改内容 * @Version: 1.0 */ public class SparseArray { /** * 我们可以使用java的IO流将稀疏数组存放到磁盘中，原数组和稀疏数组比较，肯定是稀疏数组体积更小，占用空间更小 /** * 将稀疏数组存入磁盘（文件） * */ public 在这里有个缺陷就是我不能动态的知道稀疏数组一共有几行，所以我选择传参的方式，这样其实是不太友好的 /** * 读文件获取稀疏数组(获取指定行数的稀疏数组)【不足】 * @return
1.4K40编辑于 2022-07-22
来自专栏吃猫的鱼个人博客编程笔记
稀疏数组详解
稀疏数组基本介绍当一个数组中大部分元素为0，或者同一个值的数组时，可以使用系数数组来保存该数组。稀疏数组的处理方法是：记录数组一共有几行几列，有多少个不同改的值。把具有不同值的元素的行列及值记录在一个小规模的数组中，从而缩小程序的规模稀疏数组转换二维数组转稀疏数组的思路：遍历原始的二维数组，得到有效数据的个数sum 根据sum就可以创建系数数组sparseArr intsum+1 将二维数组的有效数据存入到稀疏数组稀疏数组转原始的二维数组的思路先读取稀疏数组的第一行，根据第一行的数据，创建原始的二维数组。、在读取稀疏数组后几行的数据，并赋给原始的二维数组即可。代码示例 /** *当前类用于将普通的二维数组转换为稀疏数组进行存储 */ public class SparseArray { public static void main(String
78040编辑于 2023-03-02
来自专栏hotarugaliの技术分享
稀疏矩阵存储格式
简介稀疏矩阵是指矩阵中大多数元素为 0 的矩阵。多数情况下，实际问题中的大规模矩阵基本上都是稀疏矩阵，而且很多稀疏矩阵的稀疏度在 90% 甚至 99% 以上。 2. 存储格式相较于一般的矩阵存储格式，即保存矩阵所有元素，稀疏矩阵由于其高度的稀疏性，因此需要更高效的存储格式。一种解决方法是存成数组： 0 1 * 1 2 * 0 2 3 * 1 3 * 1 7 * 2 8 * 5 3 9 * 6 4 * 但这样要取一行就不太方便。对比 3.1 优缺点概述存储格式优点缺点 COO 灵活、简单压缩、稀疏矩阵矢量乘积效率低 CSR 灵活、简单稀疏矩阵矢量乘积效率低 ELL 稀疏矩阵矢量乘积效率高压缩效率不稳定 DIA 稀疏矩阵矢量乘积效率高压缩效率不稳定 COO 格式常用于从文件中进行稀疏矩阵的读写，而 CSR 格式常用于读入数据后进行稀疏矩阵的计算。
2.4K10编辑于 2022-03-18
来自专栏Titan笔记
稀疏矩阵的存储
【问题描述】稀疏矩阵是指那些多数元素为零的矩阵。利用“稀疏”特点进行存储和计算可以大大节省存储空间，提高计算效率。实现一个能进行稀疏矩阵基本运算的运算器。【基本要求】以三元组顺序表表示稀疏矩阵，实现两个矩阵相加、相减的运算。稀疏矩阵的输入形式采用三元组表示，而运算结果的矩阵则以通常的阵列形式列出。 ? 稀疏矩阵加减法例子【Talk is cheap, show you the code】 #include<iostream> // By Titan 2020-03-30 using namespace
1.5K20发布于 2020-07-22
来自专栏机器学习从入门到成神
稀疏矩阵转置
在此只讨论稀疏矩阵的转置问题；可能看到矩阵就会想到二维数组，比如这样一个矩阵： ? int value; //元素值 }; 这样存储一个元素就会用到三个存储单元，七个就是二十一个存储单元，可能与二十五个没多大差别，但是如果矩阵的行列是一个很大的值，而且又是稀疏矩阵这种存储结构只限于稀疏矩阵。解决了存储结构，就开始矩阵的转置吧！！！ juzhen a[MAX_TERM]; //存放矩阵中元素数值不为零的元素 int chushi(struct juzhen a[MAX_TERM]) //初始化稀疏矩阵 /矩阵中的元素个数 return count_a; } void showjuzhen(struct juzhen a[MAX_TERM],int count_a) //显示稀疏矩阵
2.3K10发布于 2018-09-14
来自专栏Java后端开发博客
稀疏数组和队列
# 稀疏数组和队列稀疏 sparsearray 数组先看一个实际的需求稀疏数组基本介绍应用案例代码实现课后作业队列队列的一个使用场景队列介绍数组模拟队列思路代码演示数组模拟环形队列 ->稀疏数组。 # 稀疏数组基本介绍当一个数组中大部分元素为0，或者为同一个值的数组时，可以使用稀疏数组来保存该数组。稀疏数组的处理方法是: 记录数组一共有几行几列，有多少个不同的值把具有不同值的元素的行列及值记录在一个小规模的数组中，从而缩小程序的规模稀疏数组举例说明 # 应用案例使用稀疏数组，来保留类似前面的二维数组，比如map.data.txt 恢复原来的数组时，读取map.data进行恢复说下我的思路：使用输出流把稀疏数组写入到磁盘（我是使用把稀疏数组元素遍历的方式把元素一个一个写入到文件，并在每个元素后面拼接，从第二行开始分别是元素的行，列，值，这样就可以初始化稀疏数组 ...
60020编辑于 2022-12-30

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

详解如何通过稀疏向量优化信息检索

解锁AI检索的7大Embedding技术：从稀疏到多向量，一文掌握

SPLADE 在稀疏向量搜索中的原理与应用详解

多维度信息捕捉：利用向量、稀疏向量、全文搜索及张量实现RAG的极致性能

两个稀疏向量的点积（哈希）

支持向量机之SMO-------7

稀疏数组

稀疏数组

稀疏数组

稀疏数组

吴恩达笔记7_支持向量机

稀疏数组

稀疏矩阵

02 稀疏数组

数组 – 稀疏数组

稀疏数组详解

稀疏矩阵存储格式

稀疏矩阵的存储

稀疏矩阵转置

稀疏数组和队列

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐