搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏PyVision
使用TVM优化PyTorch模型实现快速CPU推理
推理太慢？只好想办法把 CPU 榨干啦。作者：Aleksey Bilogur 编译：McGL Apache TVM 是一个相对较新的 Apache 项目，以深度学习模型推理的性能大幅改进为目标。在调优步骤中，TVM 对图中的计算任务(“调度”)的操作顺序进行预测，以在选定的硬件平台上获得最高性能(最快推理时间)。对于生产用例，TVM 的应用 Python 入门指南推荐 CPU 运行1500次测试，GPU 运行3000次左右。对结果模型进行基准测试我记录了在 CPU 上这个模型的两个不同版本运行一批数据的时间，并计算了运行多次推理所需的平均时间。第一个是基准的 PyTorch 模型，没有量化和编译。模型的编译版本的推理时间比基准模型快30倍以上！事实上，值得注意的是，在 CPU 上编译的模型运行速度与 GPU 上的基准模型(g4dn.xlarge，NVIDIA T4实例)相当。
2.7K31发布于 2021-07-07
来自专栏信创系统开发
能在 CPU 上运行的开源大模型推理框架
1-bit 量化可以大幅加快模型推理速度，同时减少内存使用，使得在 CPU 上推理成为可能。 BitNet.cpp旨在通过优化内核为 CPU 上运行的 1.58-bit 模型提供快速且无损的推理支持，并在未来版本中计划支持 NPU 和 GPU 。 BitNet.cpp的开源为1-bit LLM的普及和大规模推理打开了新的大门，其在CPU上的高效推理性能，极大地扩展了大模型在本地设备上的可行性。有这么好的开预案项目，当然要尝试一下。小结与主流 LLM 推理框架（如 Hugging Face Transformers 或 DeepSpeed）相比，BitNet.cpp 的独特优势在于专注于低比特模型推理，从而显著降低了计算资源需求不同于传统框架需借助 GPU 才能达到高效推理速度，BitNet.cpp 通过高效的低比特量化技术，仅依赖 CPU 也能实现接近或等同的推理性能。这一优势可以大大推进侧端大模型的普及。
1.3K10编辑于 2025-01-23
来自专栏CreateAMind
difflogic 单核CPU推理每秒超一百万张MNIST
networks allow for very fast classification, with speeds beyond a million images per second on a single CPU networks achieve fast inference speeds, e.g., beyond a million images of MNIST per second on a single CPU inputs out_dim=16_000, # number of outputs device='cuda', # the device (cuda / cpu It is compatible with device='cpu' and device='cuda'. cuda is a well-optimized implementation that runs This allows especially efficient static execution of a fixed trained logic gate network on CPU.
47510编辑于 2023-09-13
来自专栏刷题笔记
7-5 字符串循环左移
点这里 7-5 字符串循环左移输入一个字符串和一个非负整数N，要求将字符串循环左移N次。输入格式：输入在第1行中给出一个不超过100个字符长度的、以回车结束的非空字符串；第2行给出非负整数N。
1.1K20发布于 2019-11-08
来自专栏深度学习自然语言处理
FastFormers：实现Transformers在CPU上223倍的推理加速
作者：Parth Chokhra 编译：ronghuaiyang 导读使用多头注意力的Transform在cpu上实现222倍的加速。 ? CPU上采用8bit量化方法，GPU上将所有模型参数转换为16位浮点数据类型，最大限度地利用高效Tensor Cores。神经网络剪枝技术可以使训练网络的参数减少90%以上，在不影响精度的前提下减少存储需求，提高推理的计算性能。这有助于减小经过训练的神经网络的大小或能量消耗，并有助于使推理更有效。在CPU上的8bit量化矩阵乘法：由于减少了CPU指令数量，8bit量化矩阵乘法与32位浮点运算相比带来了显著的速度提升。 batch size为1的BoolQ验证数据集上的CPU推理加速总结本文介绍了FastFormers，它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。
2.3K10发布于 2021-03-01
来自专栏信创系统开发
专门针对 DeepSeek 的纯 C++ CPU 端推理框架
代码量不到 2000 行，对研究推理框架的开发者而言，这无疑是一个极简、高效的参考。除了大模型，推理框架（Inference Framework）在目前大语言模型（LLM）部署中也存在较大的优化空间。大部分开发者使用的推理框架多采用 Python 或 JavaScript，虽然通用性更强，但在极限性能追求下，C++ 方案逐渐崭露头角，例如 llama.cpp。此外，deepseek.cpp 还特别适用于低端 CPU 设备，因为它不依赖 Python 运行时，相比其他推理引擎，代码体积更小（除掉 fmt 和 json 的代码量小于 2 千行）。建议爱好钻研的同学可以关注一下，至于纯 CPU 推理对于内存要求过高的问题，以后也将不是问题，毕竟内存比 GPU 更容易造。
1K10编辑于 2025-02-10
来自专栏机器之心
CPU推理提升4到5倍，苹果用闪存加速大模型推理，Siri 2.0要来了？
论文地址：https://arxiv.org/pdf/2312.11514.pdf 具体来讲，研究者讨论了一种受硬件启发的成本模型，其中包括闪存、DRAM 和计算核心（CPU 或 GPU）。结合使用窗口和稀疏性预测可以为每个推理查询仅加载 2% 的闪存 FFN 层。他们还提出了静态内存预分配，最大限度减少了 DRAM 内的传输并减少了推理延迟。与 CPU 和 GPU 中的 naive 实现相比，优化该成本模型并有选择地按需加载参数的闪存策略可以运行两倍于 DRAM 容量的模型，并将推理速度分别提升 4-5 倍和 20-25 倍。此外将数据从 DRAM 传输到 CPU 或 GPU 内存需要耗费更多能量。在 DRAM 充足的场景中，加载数据的成本有所降低，这时模型可以驻留在 DRAM 中。对于 GPU 机器上的 16 位模型，闪存加载时间缩短至 40.5 毫秒，内存管理时间为 40 毫秒，由于从 CPU 向 GPU 传输数据的额外开销，时间略有增加。
56510编辑于 2023-12-28
来自专栏freesan44
PTA 7-5 买地攻略 (25 分)
数码城市有土地出售。待售的土地被划分成若干块，每一块标有一个价格。这里假设每块土地只有两块相邻的土地，除了开头和结尾的两块是只有一块邻居的。每位客户可以购买多块连续相邻的土地。
23200发布于 2021-09-11
来自专栏刷题笔记
7-5 小字辈 (25 分)
点这里 7-5 小字辈 (25 分) 本题给定一个庞大家族的家谱，要请你给出最小一辈的名单。
91210发布于 2019-11-08
来自专栏贾志刚-OpenCV学堂
普通PC上CPU运行YOLOv5推理 400+FPS
OpenVINO2022 OpenVINO2022.x版本全面抛弃了之前的SDK函数，升级为API2.0方式支持C++与Python推理，同时支持多种深度学习框架训练的模型部署，支持CPU与GPU推理，图示如下：流程与API2.0接口常用组件与推理流程支持：全新API2.0 接口：支持IR11版本、推理支持ONNX。对比之前的版本简化了诸多开发流程与函数使用：效果演示提供了更加强大的预训练模型库，超过200+的预训练模型，支持车牌识别： OCR识别常见场景的行人检测与实例分割：在推理层面支持同步与异步方式，异步方式支持通过回调实现后处理，实现视频流水线支持，下面是一系列的基于异步+流水线方式的推理演示（CPUi7 11th ）均达到了GPU3060的推理能力，截图如下：
1.9K40编辑于 2023-08-22
高通CEO：正开发数据中心CPU和AI推理芯片！
在最新的财报电话会议上，Amon进一步指出：“随着推理需求的规模扩大，云服务提供商正在构建专用的推理集群，不仅关注性能，还关注效率，特别是每美元/Token和每瓦/Token的效益。这些因素加上从商用 x86 CPU 到面向云计算和 AI 节点的定制的兼容 Arm架构的CPU 的转变，为高通创造了一个切入点。” Amon表示，高通正在开发“通用的数据中心CPU”，并且“非常专注于超大规模企业”，因为“他们拥有兼容 Arm架构CPU的工作负载”。同时，高通还正在开发的另一款数据中心产品，并将描述为“推理集群的主机”。“我们一直在构建加速卡，我们还将构建一个机架。”Amon说道。从Amon的介绍来看，高通似乎除了正在开发数据中心CPU之外，还在开发面向数据中心的AI推理芯片。 “虽然我们正处于此次扩张的早期阶段，但我们正在与多个潜在客户接触。”
29610编辑于 2026-03-19
来自专栏freesan44
PTA 7-5 买地攻略 (25 分)
数码城市有土地出售。待售的土地被划分成若干块，每一块标有一个价格。这里假设每块土地只有两块相邻的土地，除了开头和结尾的两块是只有一块邻居的。每位客户可以购买多块连续相邻的土地。
33820编辑于 2021-12-06
来自专栏以终为始
7-5 堆中的路径（25 分)
7-5 堆中的路径（25 分) 将一系列给定数字插入一个初始为空的小顶堆H[]。随后对任意给定的下标i，打印从H[i]到根结点的路径。
24320编辑于 2023-03-09
来自专栏贾志刚-OpenCV学堂
Pytorh与tensorflow对象检测模型如何部署到CPU端，实现加速推理
OpenVINO框架支持训练好的pb模型转换为中间文件，在CPU端侧加速推理，对SSD系列的模型在酷睿i7 CPU8th端侧推理速度可达到100FPS左右。 OpenVINO支持C++/Python两种语言部署与推理。之前写过一系列的相关文章可以直接查看这里 Tensorflow + OpenCV4 安全帽检测模型训练与推理基于OpenCV与tensorflow实现实时手势识别 Tensorflow Object YOLOv5的Pytorch版本是官方的标准版本，模型分别为： YOLOv5s YOLOv5m YOLOv5l YOLOv5x 模型大小从小到大、支持的mAP精度从低到高，而且YOLOv5s非常适合在CPU 端侧运行，通过OpenVINO部署框架加速之后，酷睿i7 CPU8th端侧可以达到12FPS左右。
1.4K20发布于 2021-04-21
来自专栏贾志刚-OpenCV学堂
YOLO26 | C# 上位机部署推理，CPU加速FPS140+
三大核心优势：极速CPU推理：通过原生端到端设计，移除NMS后处理步骤，CPU推理速度比前代提升高达43%，可在无GPU设备上实时运行。其优势包括： 1）异步推理大幅提升吞吐率，适合视频流处理； 2）支持CPU、iGPU及NPU等多硬件加速，实时推理； 3）提供C# API，便于.NET开发者快速落地代码实践与演示第一步：构建C# OpenVINOYOLO26Detector detector = new OpenVINOYOLO26Detector(); detector.Detect(); 第二步：完整代码 - 构建YOLO26 OpenVINO C# 推理演示代码
50510编辑于 2026-04-15
来自专栏为了不折腾而去折腾的那些事
CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化
本篇文章聊聊网上聊的比较少的具体量化操作，非常见整型位数的量化，来自让各种开源模型能够在 CPU 环境、CPU & GPU 环境混合推理的技术方案：llama.cpp 。量化使用的硬件而量化模型使用的硬件，需要 CPU 计算能力相对强一些的机器，如果你有 GPU，那么将会极大的提升模型量化速度，如果没有也没有关系。你也可以使用有 CPU 和 GPU 的设备，量化后给只有 CPU 的设备使用。如果我们只追求使用 8 位量化的，可以使用 CPU 和 GPU 混合推理的模型，那么我们可以参考这篇文章中的“尝试对模型进行几种不同的量化操作[5]”的方法中的命令行参数，将模型转换为 GGML 的 q8 扔到显卡里的模型层数越多，推理速度越快。•“--model” 这个参数没有什么特别的，指定我们下载或者转换好的 GGML 模型文件就好。好啦，当这个命令执行后，我们就能够快乐的和模型一起玩耍啦。
1.7K10编辑于 2023-12-14
来自专栏3D视觉从入门到精通
同样支持CPU上ONNX部署与推理
80 = next(head_it) # 80 out_blob_40 = next(head_it) # 40 out_blob_20 = next(head_it) # 20 处理输入图象与推理
2.9K20发布于 2021-07-01
来自专栏DeepHub IMBA
FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍
“将这些建议的方案应用于SuperGLUE基准，与现成的CPU模型相比，能够实现9.8倍至233.9倍的加速。在GPU上，通过所介绍的方法，我们还可以实现最高12.4倍的加速。” 作者特别关注推理时间效率，因为它主要支配了生产部署的成本。在此文章中，我们将介绍本文所解决的所有问题和挑战。那么，他们如何解决推理时间过长的问题？在CPU上，采用8位整数量化方法，而在GPU上，所有模型参数都转换为16位浮点数据类型，以最大程度地利用有效的Tensor Core。神经网络修剪技术可以将经过训练的网络的参数数量减少90％以上，减少存储需求并提高推理的计算性能，而不会影响准确性。这有助于减小训练后的神经网络的大小或能耗，并有助于提高推理效率。 CPU上的8位量化矩阵乘法：与32位浮点算术相比，8位量化矩阵乘法带来了显着的加速，这归功于CPU指令数量的减少。
1.9K20发布于 2020-11-09
来自专栏为了不折腾而去折腾的那些事
CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化
本篇文章聊聊网上聊的比较少的具体量化操作，非常见整型位数的量化，来自让各种开源模型能够在 CPU 环境、CPU & GPU 环境混合推理的技术方案：llama.cpp 。量化使用的硬件而量化模型使用的硬件，需要 CPU 计算能力相对强一些的机器，如果你有 GPU，那么将会极大的提升模型量化速度，如果没有也没有关系。你也可以使用有 CPU 和 GPU 的设备，量化后给只有 CPU 的设备使用。如果我们只追求使用 8 位量化的，可以使用 CPU 和 GPU 混合推理的模型，那么我们可以参考这篇文章中的“尝试对模型进行几种不同的量化操作”的方法中的命令行参数，将模型转换为 GGML 的 q8_0 扔到显卡里的模型层数越多，推理速度越快。 “--model” 这个参数没有什么特别的，指定我们下载或者转换好的 GGML 模型文件就好。好啦，当这个命令执行后，我们就能够快乐的和模型一起玩耍啦。
2.3K20编辑于 2023-12-12
来自专栏freesan44
PTA 7-5 实验室使用排期 (25 分)
受新冠疫情影响，当前大家的活动都必须注意保持充分的社交距离，国家实验室的使用也同样受到了严格的限制。假设规定任何一个时间点上，实验室内最多只能有 1 个人，且每个人都必须提前申请实验室的使用，只有申请被批准后才能进入。现给定一批第二天的实验室使用申请，你需要写个程序自动审批，使得能够被批准的申请数量最大化。
66500发布于 2021-09-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用TVM优化PyTorch模型实现快速CPU推理

能在 CPU 上运行的开源大模型推理框架

difflogic 单核CPU推理每秒超一百万张MNIST

7-5 字符串循环左移

FastFormers：实现Transformers在CPU上223倍的推理加速

专门针对 DeepSeek 的纯 C++ CPU 端推理框架

CPU推理提升4到5倍，苹果用闪存加速大模型推理，Siri 2.0要来了？

PTA 7-5 买地攻略 (25 分)

7-5 小字辈 (25 分)

普通PC上CPU运行YOLOv5推理 400+FPS

高通CEO：正开发数据中心CPU和AI推理芯片！

PTA 7-5 买地攻略 (25 分)

7-5 堆中的路径（25 分)

Pytorh与tensorflow对象检测模型如何部署到CPU端，实现加速推理

YOLO26 | C# 上位机部署推理，CPU加速FPS140+

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

同样支持CPU上ONNX部署与推理

FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

PTA 7-5 实验室使用排期 (25 分)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

使用TVM优化PyTorch模型实现快速CPU推理

能在 CPU 上运行的开源大模型推理框架

difflogic 单核CPU推理每秒超一百万张MNIST

7-5 字符串循环左移

FastFormers：实现Transformers在CPU上223倍的推理加速

专门针对 DeepSeek 的纯 C++ CPU 端推理框架

CPU推理提升4到5倍，苹果用闪存加速大模型推理，Siri 2.0要来了？

PTA 7-5 买地攻略 (25 分)

7-5 小字辈 (25 分)

普通PC上CPU运行YOLOv5推理 400+FPS

高通CEO：正开发数据中心CPU和AI推理芯片！

PTA 7-5 买地攻略 (25 分)

7-5 堆中的路径 （25 分)

Pytorh与tensorflow对象检测模型如何部署到CPU端，实现加速推理

YOLO26 | C# 上位机部署推理，CPU加速FPS140+

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

同样支持CPU上ONNX部署与推理

FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

PTA 7-5 实验室使用排期 (25 分)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

7-5 堆中的路径（25 分)