首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云数据库(TencentDB)

    查询执行效率低下?向量化执行来帮你

    以查询计划执行为例。 CPU的SIMD指令进行优化,从而造成查询执行效率低下的问题。 向量化执行就是解决上述问题的一种有效手段。 作为国内领先的数据库厂商,腾讯云数据库一直致力于推动国产数据库学术人才培养和技术创新生态建设发展。 在本期DB · 洞见直播中,我们邀请到了腾讯云数据库高级工程师胡翔,来为大家介绍向量化执行的最新技术创新、基本原理以及向量化引擎的相关实现。 专家介绍 胡翔 腾讯云数据库高级工程师 博士毕业于中国科学院软件研究所,加入华为高斯实验室工作多年,加入腾讯后主要负责TDSQL PG版数据库向量化执行引擎等相关特性的设计开发工作。

    68620编辑于 2022-07-19
  • 来自专栏利志分享

    浅析Clickhouse的向量化执行

    量化执行就是这种方式的典型代表,这项寄存器硬件层面的特性,为上层应用程序的性能带来了指数级的提升。 向量化执行,可以简单地看作一项消除程序中循环的优化。这里用一个形象的例子比喻。 如果有8个客户,每个客户都点了一杯苹果汁,那么小胡需要重复循环8次上述的榨汁流程,才能榨出8杯苹果汁。如果制作一杯果汁需要5分钟,那么全部制作完毕则需要40分钟。 他将榨汁机的数量从1台增加到了8台,这么一来,他就可以从篮子里一次性拿出8个苹果,分别放入8台榨汁机同时榨汁。此时,小胡只需要5分钟就能够制作出8杯苹果汁。 为了制作n杯果汁,非向量化执行的方式是用1台榨汁机重复循环制作n次,而向量化执行的方式是用n台榨汁机只执行1次。 为了实现向量化执行,需要利用CPU的SIMD指令。 ClickHouse的向量化执行机制主要依赖于SSE指令集,下面简要介绍之。 SSE指令集 SSE指令集是MMX的继任者,其第一版早在Pentium III时代就被引入了。

    94320编辑于 2022-04-25
  • 来自专栏大数据&分布式

    Spark Gluten 向量化执行框架

    背景 向量化执行模型已在现代数据库引擎被广泛应用,例如ClickHouse、TiDB、StarRocks等。 Photon向量化执行引擎取代了已有的Spark执行模式(JVM & Codegen)。 Gluten实现向量化计算的主要变更如下所示,在QueryExecution执行前优化过程中,通过注入规则对物理计划进行扩展处理,转为Gluten物理计划,使用向量化执行模式替换已有的JVM + CodeGen 在Task执行阶段,基于Gluten RDD,通过JNI调用Native引擎(默认Velox)实现向量化执行。 向量化执行引擎框架 Gluten 宣布正式开源,并亮相 Spark 技术峰会

    1.5K54编辑于 2025-01-21
  • 来自专栏GiantPandaCV

    INT8量化训练

    【GiantPandaCV导读】本文聊了两篇做INT8量化训练的文章,量化训练说的与quantization-aware Training有区别,量化训练指的是在模型训练的前传播和后向传播都有INT8 ,QAT),QAT只在前传播中,加入模拟量化,这个模型量化指的是把模型参数进行线性量化,然后在做矩阵运算之前,把之前量化的模型参数反量化回去浮点数。 而量化训练则是在前传播和后向传播都加入量化,而且做完矩阵运算再把运算的结果反量化回去浮点数。 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想,与Distribution Adaptive INT8不同的是通过收敛性分析方程,发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想,Unified INT8是通过收敛性分析方程,发现了可以通过降低学习率和减少梯度量化误差。

    1.4K30发布于 2021-04-30
  • 来自专栏模型压缩

    INT8量化训练

    【导读】本文聊了两篇做INT8量化训练的文章,量化训练说的与quantization-aware Training有区别,量化训练指的是在模型训练的前传播和后向传播都有INT8量化。 ,QAT),QAT只在前传播中,加入模拟量化,这个模型量化指的是把模型参数进行线性量化,然后在做矩阵运算之前,把之前量化的模型参数反量化回去浮点数。 而量化训练则是在前传播和后向传播都加入量化,而且做完矩阵运算再把运算的结果反量化回去浮点数。 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想,与Distribution Adaptive INT8不同的是通过收敛性分析方程,发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想,Unified INT8是通过收敛性分析方程,发现了可以通过降低学习率和减少梯度量化误差。

    1.6K00发布于 2021-06-06
  • 来自专栏量子化学

    利用MOKIT从PySCF其他量化程序传轨道

    近期笔者和另一开发者wsr在MOKIT程序中加入了fchk(),py2molpro,py2molcas,py2qchem等模块,可用于从PySCF程序其他量子化学程序传递分子轨道。 (为什么不用Gaussian算完了传轨道给其他程序:因为Gaussian是商业收费程序,有的课题组/机构没买) (3)自己基于PySCF开发新方法,无现有程序对应,但希望正确地传轨道至下一个量化程序进行后续计算 8. .run() #CAS(6o,8e) fchk(mc, 'O2_cas6o8e.fch') 注意这里我们其实提前看过O2的ROHF轨道,或对O2的分子轨道十分熟悉才能直接写(6e,8o),实际上是经过了观看 注意Windows预编译版不支持本文功能,内含的是Gaussian与其他量化程序传轨道的小程序。

    1.9K20编辑于 2022-12-07
  • 来自专栏机器学习AI算法工程

    PyTorch模型静态量化、保存、加载int8量化模型

    所以,模型量化就是将训练好的深度神经网络的权值,激活值等从高精度转化成低精度的操作过程,例如将32位浮点数转化成8位整型数int8,同时我们期望转换后的模型准确率与转化前相近。 大体可分为几类: 16位 8位 最常见也相对成熟。各种主流框架和硬件都支持。 8位以下目前而言学界相对玩得多些,工业界有少量支持,但还没有太成熟。 一般来说,对于8量化,全局量化参数影响不明显,但到更低精度,就会对准确率有较大影响。 8量化的挑战有哪些? 1、多后端难点 不同芯片后端的量化算法实现具有不同的特点。 PyTorch模型训练完毕后静态量化、保存、加载int8量化模型 1. pth_to_int.py是对Pytorch的float32模型转成int8模型。 evaluate_model.py里加载int8模型进行推理。 3.

    8.5K42编辑于 2023-02-28
  • 来自专栏量子化学

    利用MOKIT从ORCA其他量化程序传轨道

    本文介绍如何使用MOKIT从ORCA其他量化程序传轨道,有以下可能的用途: (1)在ORCA中进行了RIJK或RIJCOSX加速的大体系HF/DFT计算,想传轨道给其他程序进行后续计算,或想产生fch 8. ORCA传轨道给PSI4 mkl2psi h2o.mkl 会产生h2o.A和h2o.inp文件。前者含Alpha轨道,后者含坐标,基组和关键词。 往往涉及到对称破缺单重态和检验波函数稳定性等问题,计算实例见笔者在计算化学公社论坛上的回帖 http://bbs.keinsci.com/thread-29762-1-1.html 这里我们假设已经获得了.mdci.nat文件,接着执行 若读者在计算中使用全电子基组,自然无此问题;若用了赝势,按上文操作产生其他量化程序的文件不会含赝势信息,即使轨道系数正确,SCF也会剧烈振荡。这里笔者推荐一种解决办法: Step 1. 获得含赝势的fch文件和ORCA相关文件 执行 fch2mkl ZnMe2.chk 随即产生ZnMe2.fch,ZnMe2_o.inp和ZnMe2_o.mkl文件,现在我们就有了一个含赝势信息的fch

    1.6K20编辑于 2023-09-03
  • 来自专栏PostgreSQL研究与原理解析

    聊聊StarRocks向量化执行引擎-过滤操作

    聊聊StarRocks向量化执行引擎-过滤操作 StarRocks是开源的新一代极速MPP数据库,采用全面向量化技术,充分利用CPU单核资源,将单核执行性能做到极致。 本文,我们聊聊过滤操作是如何利用SIMD指令进行向量化操作。 过滤操作的SIMD向量化函数是filter_range,我们以binary类型的列为例: BinaryColumnBase<T>::filter_range 执行过程如下图所示: 1、通过1 >all0中字节值时,对应结果位为1,否则为0 5、将第4步的值通过_mm256_movemask_epi8转换成int整数mask。 7、mask等于0xffffffff,表示全部满足条件,需要将32个数据全部拷贝到结果集中 8、mask等于其他值时,表示有一部分值满足条件。

    1.6K40编辑于 2023-05-25
  • 来自专栏PostgreSQL研究与原理解析

    openGauss-向量化执行引擎-VecUnique算子

    openGauss-向量化执行引擎系列-VecUnique算子 openGauss实现了向量化执行引擎,达到算子级别的并行。也就是说在执行器火山模型基础上,一次处理一批数据,而不是一次一个元组。 前期我们介绍了PgSQL Unique算子的实现机制,本文接着介绍openGauss是如何实现Unique算子向量化的。 简单来说,openGauss的VecUnique算子更多的是为了实现执行器整体性的向量化,减少算子之间因为向量化和非向量化算子之间的兼容而进行的VecToRow和RowToVec算子进行的行与向量之间的转换而完成的 和colIdx,减少传递参数个数 4)idx:container[]数组中存储的唯一值个数,即GUCell个数 5)cellSize:GUCell大小 6)keySimple:distinct列是否是8字节以内 ,若8字节以内,则为true表示可以直接进行值比较;若大于8字节则需要通过函数进行比较了 7)buildFunc:用于从VectorBatch中挑出唯一值,存储到container[]数组 8)buildScanFunc

    60840编辑于 2023-11-05
  • 来自专栏PostgreSQL研究与原理解析

    聊聊ClickHouse向量化执行引擎-过滤操作

    4、上面代码耗时因素在于循环次数非常多,等于data数组的大小 5、如果可以降低循环次数,同时保证单次循环耗时变化不大,总体执行效率更高。 vceqzq_u8(vld1q_u8(src)); const uint8x16_t p1 = vceqzq_u8(vld1q_u8(src + 16)); const uint8x16 _t p2 = vceqzq_u8(vld1q_u8(src + 32)); const uint8x16_t p3 = vceqzq_u8(vld1q_u8(src + 48)); uint8x16 _t t0 = vandq_u8(p0, bitmask); uint8x16_t t1 = vandq_u8(p1, bitmask); uint8x16_t t2 = vandq_u8 uint8x16_t sum1 = vpaddq_u8(t2, t3); sum0 = vpaddq_u8(sum0, sum1); sum0 = vpaddq_u8(sum0, sum0

    1.5K50编辑于 2023-05-25
  • 来自专栏PostgreSQL研究与原理解析

    聊聊Doris向量化执行引擎-过滤操作

    聊聊Doris向量化执行引擎-过滤操作 Doris是开源的新一代极速MPP数据库,和StarRocks同源,采用全面向量化技术,充分利用CPU单核资源,将单核执行性能做到极致。 本文,我们聊聊过滤操作是如何利用SIMD指令进行向量化操作。 过滤操作的SIMD向量化函数是_evaluate_vectorization_predicate:和StarRocks实现大致类似,但稍有不同: SegmentIterator::_evaluate_vectorization_predicate 执行过程如下图所示: 1、通过1个字节bool类型的ret_flags数组来表示是否满足过滤条件,1表示满足条件,0表示不满足 2、AVX2指令集环境下:通过_mm256_loadu_si256封装的指令函数加载 )) | ((static_cast<uint32_t>(_mm_movemask_epi8(_mm_cmpgt_epi8( _mm_loadu_si128

    1.3K40编辑于 2023-05-25
  • 来自专栏深度学习那些事儿

    一起实践量化番外篇——TensorRT-8量化细节

    QDQ模块会参与训练,负责将输入的FP32张量量化为INT8,随后再进行反量化将INT8的张量在变为FP32。 trt的内部的量化算法去量化,在构建engine的时候传入图像进行校准,执行的是训练后量化的过程。 执行=(−)∗ 输入INT8输出FP32 API:https://docs.nvidia.com/deeplearning/tensorrt/api/python_api/infer/Graph/Layers.html )然后再执行QDQ融合策略。 这里通过分析TensorRT的官方转换工具trtexec执行的产生verbose信息来描述trt的量化过程,经常用trt的伙伴应该也比较熟悉。

    4.4K51编辑于 2023-10-19
  • 来自专栏漫谈测试

    如何量化战略成效的执行情况

    避免陷入纯技术指标(如用例执行数),一定要连接到业务影响。同时提醒避免常见陷阱,比如过度追求单一指标(如自动化覆盖率)而忽略质量本质。 量化战略成效的执行,就是将测试团队的日常工作与公司/部门的宏观战略(如加快上市时间、提升客户满意度、降低运营成本、增强品牌声誉)联系起来,并用数据来证明这种联系的强度和效果。 量化,就是从测试战略中分解出可衡量的关键结果。 成本维度(彰显管理的精细化)将质量成本(Cost of Quality)量化管理层展示投资回报。 作为测试管理者,量化战略成效的本质是搭建一座桥梁,将技术性的测试活动转化为商业语言,组织证明:我们在正确地做事(效率): 通过效能指标体现。

    34410编辑于 2025-09-12
  • 来自专栏Spark学习技巧

    一文了解 ClickHouse 的向量化执行

    它实现了单机多核并行、分布式计算、向量化执行与SIMD指令、代码生成等多种重要技术。 向量化执行与SIMD ClickHouse不仅将数据按列存储,而且按列进行计算。传统OLTP数据库通常采用按行计算,原因是事务处理中以点查为主,SQL计算量小,实现这些技术的收益不够明显。 向量执行引擎,通常能够带来数倍的性能提升。 What IS SIMD ? SIMD 即 single instruction multiple data 英文首字母缩写,单指令流多数据流,也就是说一次运算指令可以执行多个数据流,一个简单的例子就是向量的加减。 通过它,用户可以同时在多个数据片段上执行运算,实现数据并行(aka:矢量处理)。 SSE2是SSE指令的升级版,寄存器与指令格式都和SSE一致,不同之处在于其能够处理双精度浮点数等更多数据类。

    7.2K31发布于 2021-07-02
  • 来自专栏PostgreSQL研究与原理解析

    openGauss-向量化执行引擎-索引扫描CStoreIndexScan

    openGauss-向量化执行引擎-索引扫描CStoreIndexScan openGauss实现了向量化执行引擎,达到算子级别的并行。 也就是说在执行器火山模型基础上,一次处理一批数据,而不是一次一个元组。这样可以充分利用SIMD指令进行优化,达到指令级别并行。 2、向量化索引扫描算子 openGauss通过CStoreIndexScan算子进行向量化索引扫描。 向量化索引扫描的优势:兼容向量化引擎其他算子,以达到全算子向量化,减少VecToRow和RowToVec的互相转换;同时减少底层算子函数的调用;因为增加了排序,可如同bitmap扫描一样减少heap页的随机访问

    76830编辑于 2023-11-05
  • 来自专栏PostgreSQL研究与原理解析

    openGauss - 向量化执行引擎 - distinct分组聚合的实现

    openGauss - 向量化执行引擎 - distinct分组聚合的实现 openGauss向量化执行引擎中分组聚合有两种实现方式:排序和hash。 其中普通group by就是每次查询生成一个分组的聚合;而grouping sets、cube或者rollup分组集就是每次查询生成不同级别或者多个维度的聚合,详见: 下面我们看下openGauss向量化执行引擎中对这些分组聚合如何实现 它的聚合走另外分支: 2、原理 1)通过CStoreScan算子从磁盘上加载一批数据到内存,并通过VecSort向量化算子进行排序 2)从排好序的数据中(要么都在内存,要么溢出到磁盘)拿一批数据batch 组号为curr_set 8)当前阶段计算完后,切换阶段进入下一个阶段聚合计算 9)下一个阶段计算前,需要先对m_batchSortIn排序,然后进行4)、5)、6)7)操作,直到所有阶段的聚合都计算完。

    62610编辑于 2024-05-06
  • 来自专栏机器学习、深度学习

    CNN模型 int8量化实现方式(二)

    那下面简单的命令就可以完成卸载了 sudo pip uninstall tensorflow_gpu sudo pip3 uninstall tensorflow_gpu 这里介绍一个完全基于 Tensorflow 的模型量化方法 /convert_weights_pb.py 2)完全基于 Tensorflow 的量化 https://blog.csdn.net/u011961856/article/details/76736103 1.源码编译安装tensorflow 可参考 https://blog.csdn.net/u011961856/article/details/76725411 2 编译量化工具 sudo bazel build tensorflow/tools/quantization:quantize_graph 3.模型量化: sudo bazel-bin/tensorflow/tools/quantization ,处于开发阶段,tensorflow lite 是应该已经支持 量化模型的运行, 而 tensorflow 本身的支持很有限,貌似正在集成

    1.9K40发布于 2019-05-26
  • 来自专栏机器学习、深度学习

    CNN模型 INT8 量化实现方式(一)

    当前CNN模型基本都是 float32,将其转换为 INT8 可以降低模型大小,提升速度,精度降低的也不太多。那么在实际中如何实现这个量化了? 这里主要涉及两个问题:1)就是 int8量化;2)就是 int8 模型的使用 基于Caffe-Int8-Convert-Tools进行caffe模型转int8量化 在 NCNN 框架上运行 https ://blog.csdn.net/u014644466/article/details/83278954 首先是基于 Caffe-Int8-Convert-Tools 这个工具进行 int8量化 https://github.com/BUG1989/caffe-int8-convert-tools int8 模型的使用 How to use Int8 inference https://github.com /Tencent/ncnn/pull/487 https://github.com/Tencent/ncnn/wiki/quantized-int8-inference#caffe-int8-convert-tools

    5.2K20发布于 2019-05-26
  • 来自专栏GiantPandaCV

    F8Net:只有8比特乘法的神经网络量化

    【GaintPandaCV导语】F8Net用定点化量化方法对DNN进行量化,在模型推理只有8-bit的乘法,没有16-bit/32-bit的乘法,采用非学习的方法即标准差来定小数位宽。 问题2:为什么要做这样的量化,跟之前的量化有什么不同? ,F8Net想做的事情就是在量化推理中只有int8的乘法,没有16bit/32bit的乘法。 图1 首先来总结一下,F8Net做了什么事情: 1、模型量化推理只有8-bit位宽的乘法; 2、提出一个选择小数位宽的方法,对weight和activation都做定点化; 3、采用PACT的方法优化定点化的参数 做量化不外乎:什么量化方法(线性量化/非线性,对称量化/非对称量化等等),以及这么找数值阈值(也就是截断阈值)。PACT就是非常简单又非常使用的方法。我在做量化训练的时候也是用了PACT。

    1.8K20编辑于 2022-04-06
领券