首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • PostgreSQL 向量数据存储指南

    引言在当今的数字化时代,数据存储的方式和技术正变得越来越复杂和多样化。随着机器学习和数据科学的发展,向量数据的存储和管理变得尤为重要。 PostgreSQL 的向量数据存储支持PostgreSQL 通过扩展和插件提供了对向量数据的支持。常见的向量数据存储方式包括:数组类型:PostgreSQL 内置数组数据类型,可以存储向量数据。 PostGIS:一个地理空间数据库扩展,支持地理坐标向量存储和查询。H3、Citus:一些插件和扩展,提供高效的向量数据存储和查询功能。 VectorData 类的 vector 字段将存储向量数据。 实现步骤图像特征提取:使用深度学习模型(如 ResNet)提取图像的特征向量向量存储:将图像的特征向量存储到 PostgreSQL 数据库中。相似度查询:利用向量相似度计算,从数据库中搜索相似图像。

    1.1K00编辑于 2024-07-31
  • 来自专栏繁依Fanyi 的专栏

    PostgreSQL 向量数据存储指南

    引言 在当今的数字化时代,数据存储的方式和技术正变得越来越复杂和多样化。随着机器学习和数据科学的发展,向量数据的存储和管理变得尤为重要。 PostgreSQL 的向量数据存储支持 PostgreSQL 通过扩展和插件提供了对向量数据的支持。 常见的向量数据存储方式包括: 数组类型:PostgreSQL 内置数组数据类型,可以存储向量数据。 PostGIS:一个地理空间数据库扩展,支持地理坐标向量存储和查询。 VectorData 类的 vector 字段将存储向量数据。 实现步骤 图像特征提取:使用深度学习模型(如 ResNet)提取图像的特征向量向量存储:将图像的特征向量存储到 PostgreSQL 数据库中。

    1.1K11编辑于 2024-09-20
  • 来自专栏AI相关

    再谈RAG与向量存储引擎

    向量数据库出现前(约2018年前),向量主要存储在以下三类“临时方案”中:1)文件系统+内存索引:使用FAISS、Annoy等库建立索引,向量以NumPy数组或HDF5文件格式存储在磁盘,元数据放在MySQL Elasticsearch与向量搜索ElasticSearch从7.x版本开始支持向量搜索,8.x版本进一步增强了向量功能,使其成为构建RAG系统的可行选择。 在 7.x 版本开始通过 dense_vector 字段类型提供基础向量存储能力,此时向量仅作为数据字段存储,查询时需要通过性能低下的脚本计算相似度。 直到 8.0 版本引入 HNSW 索引支持,才真正实现高效的向量搜索能力。因此,向量存储向量搜索的必要基础,而索引优化才是实现实用化向量搜索的关键。 ,那么我们就来看看Elasticsearch作为向量存储和检索工具有何特性。

    18410编辑于 2026-02-07
  • 来自专栏马超的博客

    向量数据库:使用Elasticsearch实现向量数据存储与搜索

    向量数据库:使用Elasticsearch实现向量数据存储与搜索 一、简介   Elasticsearch在7.x的版本中支持 向量检索[2] 。 例如,不要在循环中使用这些函数来计算文档向量和多个其他向量之间的相似性。如果需要该功能,可以通过直接访问向量值来重新实现这些函数。 二、实验前准备 2.1 创建索引设置向量字段   创建一个支持向量检索的mapping,字段类型为dense_vector。 // 7.x 支持的 dims 最大为 1024。 • doc[<field>].magnitude – 将向量的大小作为浮点数返回(对于7.5版本之前创建的向量,其向量的大小不会被存储)。所以这个函数每次被调用时都会进行重新计算。 :使用Elasticsearch实现向量数据存储与搜索 [2] 向量检索: https://github.com/elastic/elasticsearch/blob/e8c382f89553e3a7aaafa88a5934288c1192acdc

    5.5K20编辑于 2023-09-02
  • 来自专栏机器学习算法与Python学习

    支持向量机之SMO-------7

    上次详细的介绍了用最小二乘法求解结构风险最小化问题的分类支持向量机,并在文章最后给出了求解对偶问题的序列最小优化(Sequential Minimal Optimization, SMO)算法解的形式 2. (2)式表明了是支持向量,在边界上。 3. (3)式表明了是在两条边界之间。 而最优解需要满足KKT 条件,即上述3 个条件都得满足,以下几种情况出现将会出现不满足: ? 与通常的分解算法比较,尽管它可能需要更多的迭代次数,但每次迭代的计算量比较小,所以该算法表现出整理的快速收敛性,且不需要存储核矩阵,也没有矩阵运算。

    76750发布于 2018-04-04
  • 来自专栏腾讯云Elasticsearch Service

    ES8 向量功能窥探系列(二):向量数据的存储与优化

    同时也将解读腾讯云 ES 向量增强版,如何助力业务实现节省 70% - 90% 存储的优化。1. 存储关于 ES 倒排索引等存储构成,网上早已有很多文章进行过解析,不做赘述。 在“无索引”的配置下,列存.dvd大部分存储向量字段占据,在配置了向量字段的 Flat 索引后,该部分存储几乎 1:1 地转移到.vec类型的向量索引数据文件中。 事实上根本上的区别是,“无索引”的向量检索方式,由于未引入新的索引类型,它甚至在 ES 7.x 的版本上也适用;而“Flat 索引”是在 ES 8.x 版本提供了专用的knn查询、存储语法后的规范实现。 行存裁剪优化3.1 发现向量的冗余存储在上一章节提到的几种索引模式中,我们不难发现以下几点:向量字段无论索引与否,.fdt占据了整个存储的绝大部分向量原始数值除了存储在.fdt外,无论索引与否,都有额外的结构进行存储 事实上,在int8_hnsw的配置下,.vec是原始 32bit 的float32的向量,.veq是标量量化后所得到的 8bit 的int8(有符号的int7)的向量,所以存储大小差不多是前者的 1/4

    1.9K10编辑于 2025-02-20
  • 来自专栏Reinvent Data Science

    揭秘 LlamaIndex|如何持久化存储 LlamaIndex 向量索引?

    LlamaIndex 系列】,此前我们已经邀请 LlamaIndex 的联合创始人详解【如何使用私有数据提升 LLM 的能力】,也细致介绍过 LlamaIndex 的各式索引,以及如何查询 LlamaIndex 向量存储索引的简略教程 本次,我们将着重讲解如何在 LlamaIndex 中创建并存储向量索引及 2 种持久化存储向量索引的方法。 01. 如果想要使用持久化存储引擎来存储索引,以便在后续应用搭建过程中使用,可以参照下文的教程。 02. 使用 MilvusVectorStore 连接向量存储,并传入主机和端口参数。 ……) 使用云端向量数据库 需要注意的是,如果遇到海量数据,我们推荐使用云端向量数据库来存储 LlamaIndex 向量索引。 以下教程中使用了 Zilliz Cloud向量数据库。

    2K21编辑于 2023-08-25
  • 来自专栏Elastic Stack专栏

    介绍一种新的向量存储格式:DiskBBQ

    这是一个快速且计算高效的算法,能够对向量数据进行对数级缩放。然而,这种速度是有代价的。为了让 HNSW 良好运作,所有向量都需要驻留在内存中。 这可能会显著减慢无法完全在内存中保存向量的硬件的速度。DiskBBQ 有何不同?DiskBBQ 使用层次化 K-means将向量划分为小簇。它会先选择代表性的质心进行查询,然后再查询各个向量。 最后,通过批量计算簇内向量与查询向量之间的距离,来探索每个簇内的向量。图 0. Hierarchical KMeans 算法流程示例。将向量分割成部分,聚类每个部分,并递归分割直到达到所需的分区大小。 DiskBBQ 另一个有趣的方面是,它允许将向量分配给多个质心。它利用 Google 的正交增强残差溢出 (SOAR)版本将向量分配到多个簇,这在向量位于两个簇边界附近时特别有用。 DiskBBQ 利用批量评分向量,并尽可能多地在堆外执行操作。这意味着我们可以直接从文件中读取向量到内存中进行优化的向量操作,从而产生相当不错的性能。DiskBBQ 的两个主要场景特别有趣。

    22610编辑于 2025-10-09
  • 来自专栏存储公众号:王知鱼

    AI向量搜索新范式:计算存储如何破局?

    您是否曾困惑于,在处理海量高维向量数据时,如何在保证搜索效率和准确性的同时,有效控制高昂的硬件成本和有限的存储容量? SanDisk 的解决方案 SanDisk的解决方案:一款专为大规模ANN向量搜索设计的、软硬件一体的计算存储(Computational Storage)加速器。 解决了纯GPU方案的成本和容量瓶颈: 它以成本低廉且容量巨大的NAND闪存作为主存储介质,而不是昂贵且容量有限的GPU显存,因此能够以极高的性价比支持超大规模(十亿级以上)的向量数据集。 其内部主要组件包括: NAND (黄色): 这是NAND闪存芯片,用于持久化存储海量的、完整的向量数据集。 Orchestrator Unit (红色): 编排/协调单元。 延伸思考 这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~ SanDisk的计算存储方案在向量搜索领域展现出巨大潜力,您认为这种“计算靠近数据”的理念,在其他AI

    25710编辑于 2025-11-20
  • 来自专栏机器学习/数据可视化

    吴恩达笔记7_支持向量

    吴恩达机器学习-7-支持向量机SVM 本周主要是讲解了支持向量机SVM的相关知识点 硬间隔 支持向量 软间隔 对偶问题 优化目标Optimization Objectives 主要是讲解如何从逻辑回归慢慢的推导出本质上的支持向量机 支持向量机 ? 根据逻辑回归推导得到的支持向量机的公式 : ? 两个cost函数是上面提到的两条直线。 间隔和支持向量 注释:本文中全部采用列向量: ? 划分超平面的的线性描述: {w\cdot x+b=0} W称之为法向量(看做是列向量),决定平面的方向;b是位移项,决定了超平面和原点之间的距离。 空间中任意一点x到超平面(w,b)的距离是: ? 间距margin 求解间距margin就是求解向量{({x_+}-{x_-})}在法向量上的投影 ? 决策边界上的正例表示为: ? 决策边界行的负例表示为: ?

    92520发布于 2021-03-02
  • 来自专栏存储公众号:王知鱼

    IBM计算存储:SSD如何加速十亿级向量搜索?

    他们将标准SSD重构为专用的向量搜索加速卡——Vector Search Module (VSM),通过“计算型存储”理念,直接在存储层并行执行向量搜索。 架构演进: 为了解决扩展性问题,未来的趋势是利用近数据计算(或存储内计算) 技术,直接在存储层并行执行向量搜索,以实现高吞吐和低延迟的大规模检索。 最近邻搜索 Exhaustive Search (暴力/穷举搜索) 全量扫描:将搜索向量与库中所有向量逐一比对。 存储密集/IO密集:需要读取全部数据。 这种设计不惜牺牲存储密度,只为换取极致的向量检索速度和低延迟。 VSM 并不是要替代所有向量计算,而是专注于它最擅长的——对海量存储数据进行高带宽的并行扫描。

    18310编辑于 2026-03-09
  • 来自专栏侯哥的Python分享

    Mysql高级7-存储过程

    一、介绍   存储过程是事先经过编译并存储在数据库中的一段sql语句的集合,调用存储过程可以简化应用开发人员的很多工作,减少数据在数据库和应用服务器之间的传输,对于提高数据处理的效率是有好处的。 二、存储过程的特点 封装、复用 可以接收参数,也可以返回数据 减少网络交互,效率提升 三、存储过程语法   3.1 创建语法 create procedure 存储过程名称 ([参数列表]) begin     when month >= 4 and month <= 6 then ->       set result := "第二季度"; ->     when month >=7   sql逻辑.... end while;   案例:计算从1累加到n的值,n为传入的参数值 mysql> delimiter & mysql> mysql> create procedure p7( ->   end; -> & Query OK, 0 rows affected (1.56 sec) mysql> delimiter ; mysql> mysql> call p7(

    1.1K81编辑于 2023-08-15
  • 来自专栏大数据和云计算技术

    MongoDB系列7:MongoDB存储引擎

    1、前言 存储引擎是数据库的组成部分,负责管理数据存储。 MongoDB支持的以下存储引擎: 存储引擎描述WiredTiger存储引擎从MongoDB 3.2开始默认的存储引擎,新的版本MongoDB推荐使用WiredTiger存储引擎。 MMAPv1存储引擎MMAPv1是MongoDB 3.2之前版本默认的存储引擎。In-Memory存储引擎MongoDB企业版支持In-Memory存储引擎。 表 2、WiredTiger存储引擎 从MongoDB 3.2开始,MongoDB默认的存储引擎为WiredTiger存储引擎。 4、MMAPv1存储引擎 MMAPv1存储引擎是3.2版本之前的默认存储引擎。它利用集合级并发性和内存映射文件访问底层数据存储。内存管理委托给操作系统。

    2.7K60发布于 2018-03-30
  • 来自专栏Mr.Wang

    CentOS7挂载NAS共享存储

    记一次在centos7下挂载惠普nas存储的操作,这台惠普nas存储的访问协议有两种:CIFS和NFS,本次采用nfs协议 环境介绍: NSA存储:HP Store Once 3540 采用协议:NFS 磁盘容量:500G 挂载路径:10.1.1.133:/nas/nfs-ts 操作系统:centos7 1.在nas上创建共享存储 2.在操作系统上安装依赖包 [root@localhost]$ yum 8.x86_64 samba-common-libs-4.10.4-11.el7_8.x86_64 samba-common-tools-4.10.4-11.el7_8.x86_64 samba-client -4.10.4-11.el7_8.x86_64 samba-common-4.10.4-11.el7_8.noarch samba-libs-4.10.4-11.el7_8.x86_64 samba-4.10.4 -11.el7_8.x86_64 [root@localhost]$ rpm -qa nfs-utils nfs-utils-1.3.0-0.66.el7.x86_64 3.创建一个挂载目录 mkdir

    7.7K30编辑于 2023-03-13
  • 来自专栏Java知识点

    7章_InnoDB数据存储结构

    数据库的存储结构:页 # 1.1 磁盘与内存交互基本单位:页 # 1.2 页结构概述 # 1.3 页的大小 不同的数据库管理系统(简称 DBMS)的页大小不同。 页结构的示意图如下所示: 如下表所示: 我们可以把这 7 个结构分为 3 个部分。 数据库存储结构.mmap # 2.3 从数据库页的角度看 B + 树如何查询 一颗 B + 树按照字节类型可以分为两部分: 叶子节点,B+ 树最底层的节点,节点的高度为 0,存储行记录。 非叶子节点,节点的高度大于 0,存储索引键和页面指针,并不存储行记录本身。 当我们从页结构来理解 B+ 树的结构的时候,可以帮我们理解一些通过索引进行检索的原理: # 3. InnoDB 行格式 (或记录格式) 见文件 InnoDB 数据库存储结构.mmap # 4. 区、段与碎片区 # 4.1 为什么要有区? # 4.2 为什么要有段?

    36020编辑于 2023-08-02
  • 来自专栏互联网-小阿宇

    Centos7挂载ISCSI网络存储

    博客首页:互联网-小啊宇 Centos7挂载ISCSI网络存储 ⭐ISCSI简介 ⭐服务器安装依赖 ⭐ISCSI启动并设置开机自启动 ⭐查看Target ⭐登陆节点前需验证 开启验证 添加用户 添加密码 从根本上说,它是一种基于IP Storage理论的新型存储技术,该技术将存储行业广泛应用的SCSI接口技术与IP网络技术相结合,可以在IP网络上构建SAN。 简单地说,iSCSI就是在IP网络上运行SCSI协议的一种网络存储技术。iSCSI技术最初由Cisco和IBM两家开发,并且得到了广大IP存储技术爱好者的大力支持,这几年得到迅速的发展壮大。 对于中小企业的存储网络来说,iSCSI是个非常好的选择。 其次,iSCSI技术解决了传输效率、存储容量、兼容性、开放性、安全性等方面的诸多问题,在使用性能上绝对不输给商业的存储系统或光纤存储网络。

    2.2K30编辑于 2022-11-21
  • 来自专栏存储公众号:王知鱼

    AI大模型时代:向量数据库如何挑战存储极限?

    本文将深入探讨向量数据库如何成为一个对存储性能高度敏感的关键AI工作负载,并揭示其对底层存储I/O的极致要求,以及我们应如何应对这些挑战。 划线高亮 观点批注 什么是向量数据库? PPT旨在从概念、功能、应用和行业趋势四个方面介绍向量数据库。 定义与功能: 向量数据库是一种专门用于存储和查询高维向量(Embeddings)的数据库。 这张PPT阐述了这一行动的三个主要驱动因素: 行业趋势(存储敏感性): 随着向量数据集的爆炸性增长,向量数据库的性能瓶颈正从内存和计算转向存储I/O。 通过实测数据证明,基于DiskANN(存储型)的向量数据库在处理大规模数据集(1亿向量)时,其性能具有良好的可扩展性,但同时也暴露了它对存储带宽的极高依赖性,并伴随着延迟的显著增加。 这有力地证明了向量数据库在高并发下是一个“存储敏感型”或“存储I/O密集型”工作负载。

    47810编辑于 2025-12-21
  • 来自专栏DeepHub IMBA

    向量存储vs知识图谱:LLM记忆系统技术选型

    第二个想法可能是存储每条消息加上摘要,然后用语义搜索(RAG里的检索部分)在查询时获取相关信息。 这就是标准的naive retrieval系统的做法。 它们大概率用了一个分类器判断某条消息是否包含需要存储的事实。 然后把事实归到预设的类别里(比如个人资料、偏好、项目),相似的就更新现有记忆,不同的就新建一条。 架构方案的选择 目前主流架构就两条路:向量方案和知识图谱方案。 前面提到的检索方法是大部分人入门时的选择。检索依赖向量存储(常配合稀疏搜索),能同时支持语义和关键词检索。 之前提到向量方案在时间推理和多跳推理上有短板。而知识图谱里信息本身就是结构化的,LLM更容易利用全部上下文。 向量方案随着信息增长,噪音会越来越强,系统可能连不起各个点。 或者搞混合方案,比如自己写个分类器筛选值得存的事实消息来控制成本,其他消息扔自己的向量存储定期压缩和总结。 最后总结 虽然有记忆系统支持,但是也别指望完美。这些系统还是会出现幻觉或者漏掉答案。

    34510编辑于 2025-11-15
  • 来自专栏Elastic Stack专栏

    Lucene 中的标量量化:如何优化存储和搜索向量

    Understanding Scalar Quantization in Lucene 自动字节量化在 Lucene 中的应用 HNSW 是一种功能强大且灵活的存储和搜索向量的方法,但它需要大量内存才能快速运行 Lucene 中的分段量化 每个 Lucene 段存储以下内容:单个向量、HNSW 图索引、量化向量和计算的分位数。为了简洁,我们将重点介绍 Lucene 如何存储量化和原始向量。 对于每个段,我们跟踪 vec 文件中的原始向量、veq 文件中的量化向量和单个修正乘数浮点数,以及 vemq 文件中关于量化的元数据。 这里跟踪量化和向量配置以及该段的计算分位数。 因此,对于每个段,我们不仅存储量化向量,还存储用于生成这些量化向量的分位数和原始向量。那么,为什么我们还要保留原始向量呢? 量化向量的搜索性能明显快于原始向量,召回率通过多收集 5 个向量就可以快速恢复;见 quantized@15。 图 6 讲述了这个故事。虽然召回率有所不同,但这是预期的,并不显著。

    1.2K12编辑于 2024-07-05
  • 来自专栏云计算D1net

    混合云存储7个最佳实践

    Stephenson说,“这是一场灾难,因为存储解决方案固有的延迟影响了对延迟极其敏感的内部部署存储,并严重影响了存储系统的性能。 Stephenson说:“混合云存储的采用正在持续增长。全球主要云计算提供商正在努力克服与混合云存储相关的挑战。此外,主要的存储平台提供商正在继续构建连接和管理云存储平台所需的功能。” 7种混合云存储最佳实践 混合云存储架构可以支持企业IT部门的目标,以推动规模经济,提高IT运营模型效率,减少总体支出,以及淘汰老旧存储设备。 他说,“在这种情况下,人工将数据从内部部署存储迁移到云存储很容易。选择具有高数据访问延迟的典型冷云存储可能比选择在混合云系统中使用的热云存储的成本要低得多。” (7)不要担心进展缓慢 Stephenson说,“存储迁移并不是一个快速的过程。企业必须制定政策并让他们适应一段时间,然后才能看到收益。

    2.2K10发布于 2020-11-19
领券