推理太慢?只好想办法把 CPU 榨干啦。 作者:Aleksey Bilogur 编译:McGL Apache TVM 是一个相对较新的 Apache 项目,以深度学习模型推理的性能大幅改进为目标。 在调优步骤中,TVM 对图中的计算任务(“调度”)的操作顺序进行预测,以在选定的硬件平台上获得最高性能(最快推理时间)。 量化是将模型图中的操作降低到较低精度表示(例如从 fp32 降低到 int8)的过程。这是模型性能优化的一种形式: 操作数的比特越少,操作的速度就越快。 对结果模型进行基准测试 我记录了在 CPU 上这个模型的两个不同版本运行一批数据的时间,并计算了运行多次推理所需的平均时间。第一个是基准的 PyTorch 模型,没有量化和编译。 模型的编译版本的推理时间比基准模型快30倍以上! 事实上,值得注意的是,在 CPU 上编译的模型运行速度与 GPU 上的基准模型(g4dn.xlarge,NVIDIA T4实例)相当。
常见的量化方法包括将模型参数从原始的 32-bit 浮点数精度压缩为 16-bit、8-bit,甚至 4-bit,这样不仅减少了模型的内存占用,还能大幅降低推理时间,显著提升算力的利用效率。 1-bit 量化可以大幅加快模型推理速度,同时减少内存使用,使得在 CPU 上推理成为可能。 BitNet.cpp旨在通过优化内核为 CPU 上运行的 1.58-bit 模型提供快速且无损的推理支持,并在未来版本中计划支持 NPU 和 GPU 。 BitNet.cpp的开源为1-bit LLM的普及和大规模推理打开了新的大门,其在CPU上的高效推理性能,极大地扩展了大模型在本地设备上的可行性。 有这么好的开预案项目,当然要尝试一下。 不同于传统框架需借助 GPU 才能达到高效推理速度,BitNet.cpp 通过高效的低比特量化技术,仅依赖 CPU 也能实现接近或等同的推理性能。这一优势可以大大推进侧端大模型的普及。
networks allow for very fast classification, with speeds beyond a million images per second on a single CPU networks achieve fast inference speeds, e.g., beyond a million images of MNIST per second on a single CPU If we choose to pack the bits into the int32 data type (the options are 8, 16, 32, and 64 bits), we would This allows especially efficient static execution of a fixed trained logic gate network on CPU. compile_model MNIST python experiments/main.py -bs 100 -t 10 --dataset mnist20x20 -ni 200_000 -ef 1_000 -k 8_
字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。所以能处理字长为8位数据的CPU通常就叫8位的CPU。 同理 32位的CPU就能在单位时间内处理字长为32位的二进制数据。字节和字长的区别:由于常用的英文字符用8位二进制就可以表示,所以通常就将8位称为一个字节。 8位的CPU一次只能处理一个字节,而32位的CPU一次就能处理4个字节,同理字长为64位的CPU一次可以处理8个字节 5.倍频系数 倍频系数是指CPU主频与外频之间的相对比例关系。 8.CPU内核和I/O工作电压 从586CPU开始,CPU的工作电压分为内核电压和I/O电压两种,通常CPU的核心电压小于等于I/O电压。 Intel的EM64T支持64位sub-mode,和AMD的X86-64技术类似,采用64位的线性平面寻址,加入8个新的通用寄存器(GPRs),还增加8个寄存器支持SSE指令。
前言:CPU Profiler 是应用性能诊断和优化的利器,本文介绍 V8 中关于这部分的实现,细节比较多也比较复杂,大致分析一下原理,代码来自 V8 10.2。 CpuProfiler 负责管理多个 CpuProfile,而我们进行一次 CPU Profile 时对应的就是一个 CpuProfile 对象。首先看一下 CpuProfiler 的构造函数。 _(test_symbolizer), processor_(test_processor), is_profiling_(false) { profiles_->set_cpu_profiler profile->id(), CpuProfilingStatus::kStarted, }; } StartProfiling 会新建一个 CpuProfile 来表示一次 CPU Profile 操作,从 CpuProfilesCollection 命名也可以看出,该对象用于管理多个 CPU Profile 对象。
作者:Parth Chokhra 编译:ronghuaiyang 导读 使用多头注意力的Transform在cpu上实现222倍的加速。 ? CPU上采用8bit量化方法,GPU上将所有模型参数转换为16位浮点数据类型,最大限度地利用高效Tensor Cores。 神经网络剪枝技术可以使训练网络的参数减少90%以上,在不影响精度的前提下减少存储需求,提高推理的计算性能。这有助于减小经过训练的神经网络的大小或能量消耗,并有助于使推理更有效。 在CPU上的8bit量化矩阵乘法:由于减少了CPU指令数量,8bit量化矩阵乘法与32位浮点运算相比带来了显著的速度提升。 batch size为1的BoolQ验证数据集上的CPU推理加速 总结 本文介绍了FastFormers,它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。
代码量不到 2000 行,对研究推理框架的开发者而言,这无疑是一个极简、高效的参考。 除了大模型,推理框架(Inference Framework)在目前大语言模型(LLM)部署中也存在较大的优化空间。 此外,deepseek.cpp 还特别适用于低端 CPU 设备,因为它不依赖 Python 运行时,相比其他推理引擎,代码体积更小(除掉 fmt 和 json 的代码量小于 2 千行)。 这种 FP8 格式(另一个常见的变体是 F8E4M3)在深度学习中被用来降低模型的内存占用和计算带宽需求,同时在一定程度上保持数值的动态范围,适用于推理阶段的量化优化。 建议爱好钻研的同学可以关注一下,至于纯 CPU 推理对于内存要求过高的问题,以后也将不是问题,毕竟内存比 GPU 更容易造。
批量查询 pod cpu requestkubectl get pods -A -o go-template \ --template=' {{- range .items}}{{ $ns := . tcontainer: %s\n" .resources.requests $ns $podname .name }} {{- end}}{{end}}{{end}}'使用 grep 过滤一下## cpu %s\tcontainer: %s\n" .resources.requests $ns $podname .name }} {{- end}}{{end}}{{end}}' | grep -E 'cpu :[0-9]+ '## cpu request 大于等于 500mkubectl get pods -A -o go-template --template=' {{- range .items}}{ :([0-9]+|[5-9][0-9]{2}m) '## cpu request 大于等于 100mkubectl get pods -A -o go-template --template=' {{
论文地址:https://arxiv.org/pdf/2312.11514.pdf 具体来讲,研究者讨论了一种受硬件启发的成本模型,其中包括闪存、DRAM 和计算核心(CPU 或 GPU)。 结合使用窗口和稀疏性预测可以为每个推理查询仅加载 2% 的闪存 FFN 层。他们还提出了静态内存预分配,最大限度减少了 DRAM 内的传输并减少了推理延迟。 与 CPU 和 GPU 中的 naive 实现相比,优化该成本模型并有选择地按需加载参数的闪存策略可以运行两倍于 DRAM 容量的模型,并将推理速度分别提升 4-5 倍和 20-25 倍。 此外将数据从 DRAM 传输到 CPU 或 GPU 内存需要耗费更多能量。 在 DRAM 充足的场景中,加载数据的成本有所降低,这时模型可以驻留在 DRAM 中。 对于 GPU 机器上的 16 位模型,闪存加载时间缩短至 40.5 毫秒,内存管理时间为 40 毫秒,由于从 CPU 向 GPU 传输数据的额外开销,时间略有增加。
CPU Throttle 问题详解 受内核调度控制周期(cfs_period)影响,容器的 CPU 利用率往往具有一定的欺骗性,下图展示了某容器一段时间的 CPU 使用情况(单位为0.01核),可以看到在 为了避免 CPU Throttle 的问题,我们只能将容器的 CPU Limit 值调大。 调研 CPU Burst 方案 什么是 CPU Burst:CPU Burst(CPU 突发)是指在计算机处理器空闲时,允许进程或线程在一段短时间内使用超过其平均 CPU 使用量的额外 CPU 时间。 在 CPU 突发期间,进程可以使用比其在限定时间段内被允许的平均 CPU 使用量更多的 CPU 资源,以提高应用程序的响应速度和性能。 Koord-RuntimeProxy 功能单一简单,支持基于全局 cm 指定哪些 Pod 需要执行策略Koordlet 本项目的由来:二开 koordlet 组件 + cfsQuotaBurstOnly 优化 K8s
OpenVINO2022 OpenVINO2022.x版本全面抛弃了之前的SDK函数,升级为API2.0方式支持C++与Python推理,同时支持多种深度学习框架训练的模型部署,支持CPU与GPU推理, 图示如下: 流程与API2.0接口 常用组件与推理流程支持: 全新API2.0 接口: 支持IR11版本、推理支持ONNX。 对比之前的版本简化了诸多开发流程与函数使用: 效果演示 提供了更加强大的预训练模型库,超过200+的预训练模型,支持车牌识别: OCR识别 常见场景的行人检测与实例分割: 在推理层面支持同步与异步方式 ,异步方式支持通过回调实现后处理,实现视频流水线支持,下面是一系列的基于异步+流水线方式的推理演示(CPUi7 11th )均达到了GPU3060的推理能力,截图如下:
在最新的财报电话会议上,Amon进一步指出:“随着推理需求的规模扩大,云服务提供商正在构建专用的推理集群,不仅关注性能,还关注效率,特别是每美元/Token和每瓦/Token的效益。 这些因素加上从商用 x86 CPU 到面向云计算和 AI 节点的定制的兼容 Arm架构的CPU 的转变,为高通创造了一个切入点。” Amon表示,高通正在开发“通用的数据中心CPU”,并且“非常专注于超大规模企业”,因为“他们拥有兼容 Arm架构CPU的工作负载”。 同时,高通还正在开发的另一款数据中心产品,并将描述为“推理集群的主机”。“我们一直在构建加速卡,我们还将构建一个机架。”Amon说道。 从Amon的介绍来看,高通似乎除了正在开发数据中心CPU之外,还在开发面向数据中心的AI推理芯片。 “虽然我们正处于此次扩张的早期阶段,但我们正在与多个潜在客户接触。”
OpenVINO框架支持训练好的pb模型转换为中间文件,在CPU端侧加速推理,对SSD系列的模型在酷睿i7 CPU8th端侧推理速度可达到100FPS左右。 OpenVINO支持C++/Python两种语言部署与推理。 之前写过一系列的相关文章可以直接查看这里 Tensorflow + OpenCV4 安全帽检测模型训练与推理 基于OpenCV与tensorflow实现实时手势识别 Tensorflow Object YOLOv5的Pytorch版本是官方的标准版本,模型分别为: YOLOv5s YOLOv5m YOLOv5l YOLOv5x 模型大小从小到大、支持的mAP精度从低到高,而且YOLOv5s非常适合在CPU 端侧运行,通过OpenVINO部署框架加速之后,酷睿i7 CPU8th端侧可以达到12FPS左右。
三大核心优势: 极速CPU推理:通过原生端到端设计,移除NMS后处理步骤,CPU推理速度比前代提升高达43%,可在无GPU设备上实时运行。 其优势包括: 1)异步推理大幅提升吞吐率,适合视频流处理; 2)支持CPU、iGPU及NPU等多硬件加速,实时推理; 3)提供C# API,便于.NET开发者快速落地 代码实践与演示 第一步:构建C# OpenVINOYOLO26Detector detector = new OpenVINOYOLO26Detector(); detector.Detect(); 第二步:完整代码 - 构建YOLO26 OpenVINO C# 推理演示代码
、实例分割、姿态评估的推理。 基本设计思路 这个系列我好久没有更新了,今天更新一篇PyQT5中如何实现YOLOv8 + ONNRUNTIME推理界面化与多线程支持。 首先需要实现三个类分别完成YOLOv8的对象检测、实例分割、姿态评估模型推理。然后在实现界面类,构建如图: 推理类型通过单选按钮实现选择,支持对象检测、实例分割、姿态评估。 推理按钮开发推理演示,支持视频与图像文件,开始推理会单独开启一个推理线程实现推理,推理结果通过信号发送到指定的槽函数处理之后更新界面,通过信号与槽机制实现界面线程跟推理线程相互独立与数据共享。 app.setStyle('Windows') # 初始化桌面容器 main_win = QtWidgets.QMainWindow() # 设置APP窗口名称 main_win.setWindowTitle("YOLOv8多线程推理应用演示
核心cpu打满了。 thread_id绑定到step1的资源组上3、发送一个dingding消息,通知到DBA(可选)代码如下:config.py# -*- coding: utf-8 -*-hostip = "192.168.3.14 "username = "dts"password = "dts"dbname = "test"dbport = 3306charset = "utf8"long_time = 10main.py# - *- coding: utf-8 -*-# 参考 https://github.com/hcymysql/imprison_rg/blob/main/imprison_rg.php# 注意,建议和MySQL 持续时间(秒): {thread[3]},用户名: {thread[4]},地址: {thread[5]},库名: {thread[6]},状态: {thread[7]},会话ID: {thread[8]
驱逐可以参考写的另一篇文章:图文轻松说透 K8S Pod 各种驱逐场景 https://cloud.tencent.com/developer/article/2289867? 0.8 3 k8s cpu 节流 CPU 节流 是一种行为,当进程即将达到某些资源限制时,进程会变慢。 3.1 k8s 中的 cpu 进程 CPU 在 Kubernetes 中使用 shares 处理。 图片 可以在 /sys/fs/cgroup/cpu/cpu.stat 中查看 CPU 统计信息 3.2 k8s 过度使用 正如我们在 限制和请求一文中看到的,当我们想要限制进程的资源消耗时, 3.3 k8s cpu 节流 您可以检查进程与 Kubernetes 限制的接近程度: (sum by (namespace,pod,container)(rate(container_cpu_usage_seconds_total
不久之前YOLOv5-Pytorch发布第五个版本,第五个版本跟之前版本最大的差异就是多出了一个输出层,之前的输出层分辨率倍数为:[8、16、32]三个层的输出。 现在YOLOv5多出的一个输出层之后,它的输出变为:[8、16、32、64]。但是我找遍了model文件夹中的模型描述文件,没发现跟模型对应的描述文件,所以我就不知道是否可以支持训练。 80 = next(head_it) # 80 out_blob_40 = next(head_it) # 40 out_blob_20 = next(head_it) # 20 处理输入图象与推理
本篇文章聊聊网上聊的比较少的具体量化操作,非常见整型位数的量化,来自让各种开源模型能够在 CPU 环境、CPU & GPU 环境混合推理的技术方案:llama.cpp 。 量化使用的硬件 而量化模型使用的硬件,需要 CPU 计算能力相对强一些的机器,如果你有 GPU,那么将会极大的提升模型量化速度,如果没有也没有关系。 你也可以使用有 CPU 和 GPU 的设备,量化后给只有 CPU 的设备使用。 如果我们只追求使用 8 位量化的,可以使用 CPU 和 GPU 混合推理的模型,那么我们可以参考这篇文章中的“尝试对模型进行几种不同的量化操作[5]”的方法中的命令行参数,将模型转换为 GGML 的 q8 扔到显卡里的模型层数越多,推理速度越快。•“--model” 这个参数没有什么特别的,指定我们下载或者转换好的 GGML 模型文件就好。 好啦,当这个命令执行后,我们就能够快乐的和模型一起玩耍啦。
“将这些建议的方案应用于SuperGLUE基准,与现成的CPU模型相比,能够实现9.8倍至233.9倍的加速。在GPU上,通过所介绍的方法,我们还可以实现最高12.4倍的加速。” 作者特别关注推理时间效率,因为它主要支配了生产部署的成本。在此文章中,我们将介绍本文所解决的所有问题和挑战。 那么,他们如何解决推理时间过长的问题? 在CPU上,采用8位整数量化方法,而在GPU上,所有模型参数都转换为16位浮点数据类型,以最大程度地利用有效的Tensor Core。 神经网络修剪技术可以将经过训练的网络的参数数量减少90%以上,减少存储需求并提高推理的计算性能,而不会影响准确性。这有助于减小训练后的神经网络的大小或能耗,并有助于提高推理效率。 CPU上的8位量化矩阵乘法:与32位浮点算术相比,8位量化矩阵乘法带来了显着的加速,这归功于CPU指令数量的减少。