首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI研习社

    PyTorch算法加速指南

    所有帖子都在这里: 1.加快算法速度,第1部分—PyTorch 2.加快算法速度,第2部分-Numba 3.加快算法速度,第3部分—并行化 4.加快算法速度,第4部分--Dask 这些与Jupyter 引言: 在本文中,我将展示如何使用torch和pycuda检查、初始化GPU设备,以及如何使算法更快。 PyTorch是建立在torch之上的机器学习库。它得到了Facebook AI研究小组的支持。 8. torch.multiprocessing torch.multiprocessing是Python多处理模块的包,其API与原始模块100%兼容。 via https://towardsdatascience.com/speed-up-your-algorithms-part-1-pytorch-56d8a4ae7051

    1.3K20发布于 2019-11-27
  • 来自专栏DeepHub IMBA

    使用FP8加速PyTorch训练

    FP8与Transformer Engine的集成 PyTorch(版本2.1)不包括FP8数据类型。 为了将我们的脚本编程为使用FP8,我们将使用Transformer Engine (TE),这是一个用于在NVIDIA gpu上加速Transformer模型的专用库。 Fp8_autocast上下文管理器。 所以可能需要调整底层FP8机制(例如,使用TEapi),调整一些超参数,和/或将FP8的应用限制在模型的子模型(一部分)。最坏的可能是尽管进行了所有尝试,模型还是无法与FP8兼容。 总结 在这篇文章中,我们演示了如何编写PyTorch训练脚本来使用8位浮点类型。展示了FP8的使用是如何从Nvidia H100中获得最佳性能的关键因素。

    98440编辑于 2023-11-20
  • 来自专栏AI科技大本营的专栏

    8比特数值也能训练模型?商汤提训练加速算法丨CVPR 2020

    与此同时,在提升训练精度的同时,也不应当进入过多额外的计算,否则加速效果将会大打折扣。 一方面是高效的计算峰值保障,一方面是困难重重的算法设计,这是INT8训练技术的机遇与挑战。 ? 上图的上半部分展示了标准的卷积神经网络量化计算前向过程,该过程被广泛应用在INT8部署加速中。 INT8训练的一个核心的加速点在于卷积计算的反向过程,上图展示了INT8训练中卷积计算在反向传播过程中的计算细节。 已有的少量探究梯度量化的论文[4]均未报告算法在实际训练任务中的真实加速性能,为了最大限度将方法实用化,本文在 GeForce GTX1080TI显卡上编写并优化了用于支持INT8训练的卷积前向和后向计算核心 实测结果表明,使用INT8卷积计算的前向和后向过程相比于浮点计算有明显的加速,其中前向过程平均加速1.63倍,后向过程平均加速1.94倍。如下图所示: ?

    1.7K10发布于 2020-04-14
  • 来自专栏Python绿色通道

    8个 可以让 Python 加速的 tips

    本文对一些 Python 代码加速运行的技巧进行整理。 0. 代码优化原则 本文会介绍不少的 Python 代码加速运行的技巧。在深入代码优化细节之前,需要了解一些代码优化基本原则。 result = computeSqrt(size) main() 在第 1 节中我们讲到,局部变量的查找会比全局变量更快,因此对于频繁访问的变量sqrt,通过将其改为局部变量可以加速运行 sum def main(): size = 10000 for _ in range(size): sum = computeSum(size) main() 8.

    82220发布于 2021-11-10
  • 来自专栏FPGA技术江湖

    基于 FPGA 的压缩算法加速实现

    基于 FPGA 的压缩算法加速实现 第一部分 设计概述 /Design Introduction 1.1设计目的 本设计中,计划实现对文件的压缩及解压,同时优化压缩中所涉及的信号处理和计算密集型功能,实现对其的加速处理 将余弦矩阵实现为8×8查找表,从而消除了对昂贵的CORDIC引擎的需求。 在顶层封装时选用AXILITE接口,用于将文件从处理器传输给FPGA并读回。这是PS端和PL端进行数据传输所必须的功能。 系统组成及功能说明 /System Construction & Function Description 2.1 系统的功能实现 本设计中,在pynq-z2 FPGA平台上使用Gzip对文件进行了压缩算法加速实现 图8 另外,在 Gzip 压缩中,哈夫曼编码的实现有两种:分别为静态哈夫曼编码和动态哈夫曼编码。 并具备一定的加速效果,相比纯arm进行压缩速度提高了1.6倍。Vivado硬件工程能够通过综合、应用、生成比特流。最后通过Jupyter Notebook在pynq z2平台上进行功能验证。

    55000编辑于 2025-07-08
  • 来自专栏InCerry

    .NET8 硬件加速指令的支持

    作为一个平台,Wasm 已经开始提供底层的 SIMD(单指令多数据)支持,以便加速核心算法,而 .NET 也相应地选择通过硬件内在函数来暴露对这一功能的支持。 相反,你可以简单地期待你现有的使用Vector128<T>的跨平台算法在支持的地方会隐式地提升性能。 后来在 2003 年,当 x64 平台在 AMD Athlon 64 上引入时,它又提供了 8 个额外的寄存器,这些寄存器能被 64 位代码访问,被命名为 xmm8 到 xmm15。 这可以大幅提高某些算法的性能,并大大减少所需的处理量。其工作原理是它接受 4 个输入,即左值、右值、表格和控制。 这使得将现有算法扩展到 256 位变得简单,因为你实际上是做了两次相同的事情。然而,当你真的需要将整个向量作为一个整体来考虑时,这使得其他算法的工作变得更加困难。

    88610编辑于 2023-12-26
  • 来自专栏LLM

    Google 迎来「DeepSeek 时刻」:TurboQuant算法实现3bit无损、8×加速、6×压缩、零预处理

    极坐标量化)与QJL(QuantizedJohnson-Lindenstrauss)两大核心组件,不仅在理论上逼近了信息论的压缩下限,更在实践中实现了KVCache高达6倍以上的内存压缩、注意力计算速度提升8倍 把原本用16位浮点数存储的KV向量,压缩成8bit、4bit甚至更低精度的整数,从数据格式上直接减少显存消耗。量化看似是最直接的方案,但传统量化方法存在「元数据开销与精度流失」的困境。 在H100GPU上,4位TurboQuant相较32位未量化KV缓存,注意力计算速度提升达8倍,下图直观呈现了这一速度增益。 这种「推理经济性」的提升将极大地加速AI在法律审计、长代码维护、个人数字助理等领域的普及。 硬件设计的未来方向TurboQuant的成功证明了算法创新可以部分抵消物理硬件的限制。这促使芯片设计者(如NVIDIA、GoogleTPU团队)重新思考下一代加速器的架构。

    60000编辑于 2026-03-27
  • 来自专栏技术进阶

    Centos 7.0-7. 8 安装bbr加速教程

    bbr是什么 TCP BBR(Bottleneck Bandwidth and Round-trip propagation time)是由Google设计,于2016年发布的拥塞算法。 以往大部分拥塞算法是基于丢包来作为降低传输速率的信号,而BBR则基于模型主动探测。该算法使用网络最近出站数据分组当时的最大带宽和往返时间来创建网络的显式模型。 Google在YouTube上应用该算法,将全球平均的YouTube网络吞吐量提高了4%,在一些国家超过了14%。 从 4.9 开始,Linux 内核已经用上了该算法,并且对于QUIC可用。

    1.7K10编辑于 2021-12-24
  • GPU加速MIP原始启发式算法

    MIP求解器的加速原始启发式算法,是在不穷举搜索整个解空间的前提下,提供高质量可行解的算法加速启发式算法通过利用并行性和更智能的搜索策略来减少求解时间,使企业能够响应中断并做出低延迟决策。 本文阐释某机构cuOpt如何通过原始启发式算法,利用GPU加速为MIP问题提供高质量解,从而为MIPLIB基准测试集中的四个开放实例(liu.mps、neos-3355120-tarago.mps、polygonpack4 图表显示,与包含复杂割平面算法和特定问题方法的求解器相比,速度有显著提升。这表明存在进一步改进的潜力,以及可以用前述GPU加速原始启发式算法来增强任何现有求解器的可能性。 某机构cuOpt利用GPU加速使这些启发式算法在大规模下变得实用,产生更快的解、缩小目标间隙,并实现持续、自适应的决策流水线。

    10710编辑于 2026-04-08
  • 来自专栏姜媚的专栏

    CNN 模型压缩与加速算法综述

    导语:卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。 2.1 算法流程 与前面的“架构压缩派”的SqueezeNet不同,Deep Compression是属于“权值压缩派”的。 因此Song H.等人专门针对压缩后的模型设计了一套基于FPGA的硬件前向加速框架EIE[12],有兴趣的可以研究一下。 三、XNorNet 二值网络一直是模型压缩和加速领域经久不衰的研究课题之一。 四、Distilling Distilling算法是Hinton等人在论文Distilling the Knowledge in a Neural Network中提出的一种类似网络迁移的学习算法。 相信结合不断迭代优化的网络架构和不断发展的硬件计算加速技术,未来深度学习在移动端的部署将不会是一个难题。

    16.2K70发布于 2017-08-21
  • 来自专栏GiantPandaCV

    详解卷积中的Winograd加速算法

    「GiantPandaCV导语」:这篇文章为大家介绍一下用来加速卷积运算的WinoGrad算法的原理,工程实现以及相关优化思路,如果你对卷积加速算法感兴趣可以看看这篇文章。 所以在这种情况下,针对卷积的WinoGrad算法出现了,它不仅可以类似FFT一样降低计算量,它还不会引入复数,使得卷积的运算加速成为了可能。 因此,本文尝试从工程实现的角度来看一下WinoGrad,希望对从事算法加速的小伙伴有一些帮助。 2. 为什么会有这篇文章? 相比于普通的矩阵乘法,使用WinoGrad算法之后乘法次数减少了,这样就可以达到加速的目的了。 这个例子实际上是「1D的WinoGrad算法」,我们将上面的计算过程写成矩阵的形式如下: ? WinoGrad算法进一步加速 上面无论是针对U,V,M还是Y矩阵的计算我们使用的都是暴力计算,所以接下来可以使用Neon Instrics和Neon Assembly技术进行优化。

    5.4K42发布于 2020-10-10
  • 来自专栏算法工程师之路

    每日算法题:Day 8

    作者:TeddyZhang,公众号:算法工程师之路 Day 8, C/C++知识点走起~ 1 编程题 【剑指Offer】翻转链表 输入一个链表,反转链表后,输出新链表的表头。 nullptr; return newHead; } }; 如果不使用额外的空间的话,我们可以使用两个指针pre和next, 对链表相邻的两个节点进行交换调整,这才是面试官想要看到的算法

    46120发布于 2019-08-09
  • 来自专栏乐行僧的博客

    8-快速排序算法

    一些关键点: 不稳定的排序算法 初始状态待排序序列基本有序,快速排序的时间复杂度为O(n^2),性能非常差 空间复杂度与递归树的高度成正比,平均来看是O(log2n) 划分函数的选择非常重要 优化,随机划分 QuickSort(a, l, p - 1); QuickSort(a, p + 1, r); } int main() { int a[] = {3, 1, 2, 4, 7, 0, 5, 8,

    24830编辑于 2022-02-25
  • 来自专栏AI科技时讯

    XGB-8: Xgboost加速故障时间的生存分析

    8列表示特征,最后一列“生存时间”表示标签。 加速故障时间模型 加速失效时间(AFT) 模型是生存分析中最常用的模型之一。

    71110编辑于 2024-05-30
  • 来自专栏OpenMMLab

    试试这个加速算法

    今天我们将解读该篇论文,带领大家一起了解 Multigrid 训练加速算法的具体细节。 (configs/recognition/slowfast/slowfast_multigrid_r50_8x8x1_358e_kinetics400_rgb.py) 使用步骤如下: 1)使用 step slurm_train.sh partition slowfast_multigrid_k400 configs/recognition/slowfast/slowfast_multigrid_r50_8x8x1 算法解读就先到这里啦~你学会了吗? 如果大家想要进行更深入地学习,可以借助我们 MMAction2 的算法库,非常欢迎大家来使用,Star, Fork 和 PR !

    68340编辑于 2022-04-09
  • 来自专栏Java实战博客

    WordPress加速 – Redis加速 – Opcache加速

    本页目录 Redis加速 Opcache – PHP脚本加速 任何网站的加速都离不开缓存,Wordpress也是一样,我们本次采用Redis做Wordpress的缓存! 同时我们采用Opcache给PHP脚本加速! Redis加速 我们去宝塔,下载一个Redis,然后启动Redis,然后配置文件配置如下。 // 设置使用的Redis库 define( 'WP_REDIS_DATABASE', 0 ); Opcache – PHP脚本加速 在宝塔里安装一下。 默认是4 opcache.interned_strings_buffer=8 ;OPcache控制内存中最多可以缓存多少个PHP文件,建议设置大一点,大于你的项目中的所有PHP文件的总和。

    3.4K10编辑于 2022-11-18
  • 来自专栏算法进阶

    图神经网络加速综述: 算法、系统和硬件

    为了应对这些挑战,已经进行了许多关于如何加速GNN的研究。这些加速技术涉及GNN的各个方面,从智能训练和推理算法到高效系统和定制硬件。 本综述提供了GNN加速的分类,回顾了现有的方法,并提出了未来的研究方向。 如图1所示,GNN加速技术分为三类:算法、系统和定制硬件。 相关工作根据工作量的灵活性进行分类,包括针对多种GNN算法加速器和专注于GCN操作的加速器。 G-CoS是一个自动化框架,包含一次性协同搜索算法和通用加速器搜索空间,以优化GNN的性能和效率。GCoD是一个协同设计框架,通过优化算法和硬件加速器来解决GNN推理中的极度稀疏问题。 HyGCN加速器将GNN算法分为聚合和组合两个阶段,采用独立的处理引擎以数据流方式处理。FlowGNN是一种通用数据流架构,可支持多种消息传递GNN算法

    2K10编辑于 2024-02-17
  • 来自专栏SDNLAB

    NFV性能优化——架构性并行加速算法思想

    但是,NFV有一大弱点和弊端目前尚且无法超越传统网络功能设备——NFV处理的性能效率,这篇文章从SIGCOMM中的一篇论文获得启发,提出了一种从架构上加速NFV的算法。 除此之外,更重要的是,论文还提出了一种NFV加速算法。其思想是把传统的网络功能拆成各个不可再分的“元素处理模块”,合并和重构不同网络功能的处理模块,从而达到加速的效果。 介绍完了OpenBox,笔者认为算法还具有提升空间,众所周知,除了IPS和防火墙这种包具有先后处理顺序的网络功能之外,许多的网络功能部件之间处理是没有关系的,比如CDN和Tester之间就没有顺序关系, 于是笔者提出一种新的NFV架构,使用并行处理的思想对NFV进行加速。即在包分发器(PCD)和一个控制器(Controller)辅助下,对包进行并行处理。如图5所示: ? 除此之外,input和output横跨多少SW才能使得在controller中等待处理包的队列效率最大,这都决定到这两种算法的可行性,这些问题还有待进一步探究。

    1.2K50发布于 2018-03-30
  • 来自专栏HenCoder

    HenCoder Android 自定义 View 1-8 硬件加速

    今天我试着就把硬件加速的外衣脱掉(并没有),聊一聊它的原理和应用: 硬件加速的本质和原理; 硬件加速在 Android 中的应用; 硬件加速在 Android 中的限制。 这就是「硬件加速」。 而对于 Android 来说,硬件加速有它专属的意思:在 Android 里,硬件加速专指把 View 中绘制的计算工作交给 GPU 来处理。 如图,在硬件加速开启时,CPU 做的事只是把绘制工作转换成 GPU 的操作,这个工作量相对来说是非常小的。 怎么就「加速」了? 如果这个方法是硬件加速的开关,那么它的参数为什么不是一个 LAYER_TYPE_SOFTWARE 来关闭硬件加速以及一个 LAYER_TYPE_HARDWARE 来打开硬件加速这么两个参数,而是三个参数 View 级别的硬件加速开关,所以它就「顺便」成了一个开关硬件加速的方法。

    58230发布于 2018-08-20
  • 来自专栏学习

    【优选算法8----四数之和

    有看过我上篇算法博客并且去做过的铁子们,对这道题的话应该就不会那么陌生了,因为这两道题 的解题思路有着异曲同工之妙~ -----------------------------------------begin ------------------------------------- 题目解析: 跟三数之和就多了一数,看过的铁子还是很容易理解的~ 讲解算法原理: 同三数之和一样,暴力算法肯定不得行的~ 所以就直接在暴力算法的基础上 ,我们借助在三数之和的算法原理来多加一层循环,便解决这道四 数之和啦~ 编写代码: class Solution { public: vector<vector<int>> fourSum(vector

    8200编辑于 2025-01-24
领券