首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏性能优化之路

    视频抽帧的全流程GPU异构加速实践

    使用硬件来做硬解码以及并行计算加速是一个比较理想的替代方案,NVIDIA的GPU从2014年发布的Maxwell架构开始,即增加了单独的硬件编解码计算单元,并且GPU上为数众多的CUDA core也特别适用于图像数据并行处理加速 因此,该方案的主要目标是尽可能减少host与device间的数据IO交换,做到抽帧过程全流程GPU异构计算,充分利用腾讯云NVIDIA GPU自带的硬件解码单元NVDEC,最大限度减少视频解码对于CPU 目前该方案仍在迭代中,当前具备的特点和优势如下: 高性能:硬解+CUDA并行计算加速,较CPU方案快近一倍,较Python版快数倍 全异构:整个pipeline中间过程无CPU&GPU间帧数据交换,避免 真正做到全流程GPU异构抽帧。 (该方案已得到NVIDIA官方大力认可,并作为优秀案例进行推广:《腾讯广告视频抽帧的全流程GPU加速》) 最后,给个人公众号打个小广告,主要分享AI工程领域的加速、性能优化实践经验总结。

    8.1K205编辑于 2022-05-30
  • 来自专栏全栈程序员必看

    【矩阵计算GPU加速】numpy 矩阵计算利用GPU加速,cupy包

    CuPy 项目地址:https://cupy.chainer.org/ 这个项目本来是用来支持Chainer这个深度学习框架的,但是开发者把这个“GPU 计算包”单独分出来了,方便了大家!!! 1024,512,4,1))*512.3254 time1=time.time() for i in range(20): z=x*y print('average time for 20 times gpu 后面的计算速度才是稳定的,cpu和gpu都有一定这个特性,这个原因cpu和gpu是不同!和“操作系统的本身算法、GPU工作方式”等有关系吧? 4,4,4,4))*1024. y=np.ones((4,4,4,1))*512.3254 x=cp.ones((4,4,4,4))*1024. y=cp.ones((4,4,4,1))*512.3254 GPU 失去了优势,所以也不是所有计算都需要放到gpu上来加速的!

    3K20编辑于 2022-09-13
  • 来自专栏Reinvent Data Science

    异构计算系列(二):机器学习领域涌现的异构加速技术

    [4] 基于 RAPIDS [5] 构建了 GPU 加速的 SQL 分析引擎。 特定数据类型处理方面,OpenCL 提供了图像处理的 GPU 加速能力 [8],英伟达在 cuStrings [9] 项目中提供了面向字符串的 GPU 加速处理函数库,ZILLIZ 在其即将开源的 Arctern 项目中将推出面向地理信息数据处理的 GPU 加速引擎 [10]。 算法方面,cuML 提供了一套 GPU 加速的 ML 算法包。 基于树的算法方面,XGBoost 早在 16 年底就开始了算法的 GPU 加速工作,并于 17 年支持多卡。

    1.4K30发布于 2020-04-01
  • 来自专栏博文视点Broadview

    “云上生长”网络研讨会|使用 GPU 和 VPU 等异构硬件加速视频转码

    在此背景下,企业对极高效率、极低延迟的追求与传统硬件瓶颈、算力闲置的现状发生冲突,如何高效组合异构硬件,充分提高硬件利用率,降低成本,就成为当下值得思考的一个问题。 GPU 可以为很多领域提供弹性计算能力,对视频转码的支持便是 GPU 应用最广泛的领域之一。 云计算中的计算资源来自不同的硬件,其中最具代表性的就是 CPU 和 GPU,以及后期兴起的VPU、NPU、TPU 等专业计算硬件。 青云云点播服务中的转码服务(公测期间免费),就是 GPU 在视频转码中的实际应用。 本次研讨会,我们邀请到了青云科技音视频技术专家李小文,为大家分享 GPU、VPU 等异构硬件在视频转码服务中的应用与实践。 李小文 青云科技顾问级研发工程师,主导青云音视频处理相关技术架构设计。

    69910编辑于 2022-08-29
  • 来自专栏防止网络攻击

    【玩转 GPUGPU加速的AI开发实践

    如上图所示,HK-WEKA人工智能数据平台支持英伟达的GPUDirect存储协议,该协议绕过了GPU服务器的CPU和内存,使GPU能够直接与HK-WEKA存储进行通信,将吞吐量加速到尽可能快的性能。 二、NVIDIA Riva SDKNVIDIA Riva 是一个 GPU 加速的 SDK,用于构建和部署完全可定制的实时语音 AI 应用程序,这些应用程序可以实时准确地交付。 四、NVIDIA GPU 加速“ AI +分子模拟”,助力深势科技打造微尺度工业设计平台本案例中通过 NVIDIA A100 Tensor Core GPU,深势科技开创的“多尺度建模+机器学习+高性能计算 NVIDIA GPU 加速科学计算,释放“AI + Science”巨大潜力“AI + Science” 的科学研究范式是当下的前沿热点。 深势科技作为AI+Science范式的典型企业,致力于以算力算法的进展切实赋能科研突破与产业升级,NVIDIA GPU 助力深势科技加速实现技术迭代与产品部署。

    1.5K00编辑于 2023-05-27
  • 来自专栏计算机视觉理论及其实现

    tensorflow的GPU加速计算

    CPU上(比如a_gpu和a_gpu/read),而可以被GPU执行的命令(比如a_gpu/initial_value)依旧由GPU执行。''' 虽然GPU可以加速tensorflow的计算,但一般来说不会把所有的操作全部放在GPU上,一个比较好的实践是将计算密集型的运算放在GPU上,而把其他操作放到CPU上。 GPU是机器中相对独立的资源,将计算放入或者转出GPU都需要额外的时间。而且GPU需要将计算时用到的数据从内存复制到GPU设备上,这也需要额外的时间。 # 只使用第二块GPU(GPU编号从0开始)。在demo_code.py中,机器上的第二块GPU的# 名称变成/gpu:0,不过在运行时所有/gpu:0的运算将被放在第二块GOU上。 深度学习的多GPU并行训练模式tensorflow可以很容易地利用单个GPU加速深度学习模型的训练过程,但是利用更多的GPU或者机器,需要了解如何并行化地训练深度学习模型。

    8.1K10编辑于 2022-09-04
  • 来自专栏腾讯Bugly的专栏

    Javascript如何实现GPU加速

    一、什么是Javascript实现GPU加速? CPU与GPU设计目标不同,导致它们之间内部结构差异很大。 CPU需要应对通用场景,内部结构非常复杂。 而GPU往往面向数据类型统一,且相互无依赖的计算。 所以,我们在Web上实现3D场景时,通常使用WebGL利用GPU运算(大量顶点)。 但是,如果只是通用的计算场景呢? 测试平台 测试结论 PC GPU较CPU优势较少 iOS GPU较CPU优势较少 Android vivoX20(运行10次平均)CPU:770ms,GPU:270GPU较CPU快2.85倍三星S7(运行 10次平均)CPU:982ms,GPU:174msGPU较CPU快5.64倍 2.4、使用GPGPU意义: GPU与CPU数据传输过程,与GPU实际运算耗时相当,所以使用GPU运算传输成本过高,实测在 本测试案例是从webAR项目中抽取,需要实时跟踪用户摄像头处理视频流(256*256),使用GPU计算意义非常大,否则无法实现实时跟踪。 三、如何实现GPU通用计算?

    2.8K60发布于 2018-06-19
  • 来自专栏分子生物和分子模拟计算

    GPU加速分子模拟

    GHZ 功耗:238W 平台:centos7+fftw3+nvidia driver 365+cuda8 测试软件:gromacs 5.1.4,手工编译source code 测试结果:相同的体系,不用GPU 加速, 1.5ns/day ;启用了GPU加速计算,11ns/day. ~~~~~~~~~~~~~~~~~~~~~~~ 6,7年前的旧卡,四个合共1792个CUDA,可以有如此的加速效果,是超出预期。

    1K40发布于 2018-07-03
  • 来自专栏媒矿工厂

    视频编码的GPU加速

    同时,在GPU领域,随着CUDA等通用计算平台的不断发展,GPU逐渐成为了通用计算领域中不可或缺的硬件。利用GPU对视频编码进行加速成为了学术界和工业界的热点。 1. 目前,基于CUDA的GPU加速已经在深度学习、图像处理、科学计算等领域有着广泛应用。 2. 编码加速 目前,最新的视频编码标准是HEVC,基于GPU的HEVC编码加速研究已经有很多。 这就要求加速算法必须提高吞吐量。 在HEVC中,整像素搜索部分是以PU块为单位进行。然而,HEVC的PU块可选大小分布广泛,最大可取64x64,最小时边长仅为4。 在进行GPU运算时,首先要把数据从主机内存中传输到GPU显存中,合理地进行I/O设计是GPU效率的关键。 总结 本文主要介绍了常见的HEVC的GPU加速方法和GPU程序设计时要注意的问题。主机和设备之间的I/O是GPU优化的重点问题,需要精心设计。

    3.7K40发布于 2018-03-05
  • 来自专栏数据结构和算法

    NumPy 高级教程——GPU 加速

    Python NumPy 高级教程:GPU 加速 在处理大规模数据集或进行复杂计算时,利用 GPU 进行加速是一种常见的优化手段。NumPy 提供了一些工具和技术,可以方便地在 GPU 上执行计算。 在本篇博客中,我们将深入介绍 NumPy 中的 GPU 加速,并通过实例演示如何应用这些技术。 1. 使用 Numba 加速 GPU 计算 Numba 是一个 JIT(即时编译)编译器,可以加速 Python 代码的执行。 这两个框架提供了张量对象,支持 GPU 加速。 希望本篇博客能够帮助你更好地理解和运用 NumPy 中的 GPU 加速技术。

    3.3K10编辑于 2024-01-09
  • 来自专栏CSD的一些笔记

    CSS 强制启用 GPU 加速

    开下任务管理器发现 CPU 满了,GPU 大概跑了一半。 试着用了所谓的“GPU 加速”后,情况改善不少,虽然还是远没有到达 30 帧。 在这机房上课真的折磨。 原理 CSS 的动画,变换和过渡并不会自动启用 GPU 加速,而是使用浏览器更慢的软件渲染引擎执行。 而许多浏览器提供了使用某些CSS规则的时候开启 GPU 加速渲染的功能。 这种是最简单的诱骗浏览器开启 GPU 加速的方法。 这样就可以强制浏览器使用 GPU 来渲染这个元素,而不是 CPU。 如果用 Tailwind CSS 的话,官方就有 GPU 加速的玩法,直接加一个 transform-gpu。 合成层是一个可以被 GPU 处理的图层。当你对这个元素进行变化时,浏览器就会让 GPU 来更新合成层上的位图。 示例 再来一个简单的示例。 示例 1:一个简单的旋转动画,没有使用 GPU 加速

    1.6K20编辑于 2023-05-29
  • PR如何开启GPU加速

    改成 使用全局设置 (如果还有一个选项:为此程序选择首选图形处理器   则选择:高性能NVIDIA处理器) 3.在PR菜单栏选择“文件”➜“项目设置”➜“常规” 在弹出窗口的渲染程序一栏中选择CUDA加速

    1.3K10编辑于 2025-07-20
  • 来自专栏3D视觉从入门到精通

    GPU加速——OpenCL学习与实践

    参考刘文志等所著《OpenCL异构并行计算》,结合自身实践所做的总结,在此,特别感谢蒋工给予的指导。由于作者认知水平有限,文中如有不到的地方,欢迎大家批评指正。 OpenCL全称为Open Computing Language(开放计算语言),先由Apple设计,后来交由Khronos Group维护,是异构平台并行编程的开放标准,也是一个编程框架。 OpenCL的设计借鉴了CUDA的成功经验,并尽可能地支持多核CPU、GPU或其他加速器。OpenCL不但支持数据并行,还支持任务并行。同时OpenCL内建了多GPU并行的支持。 -- 引自《OpenCL 异构并行计算》 一 OpenCL的执行流程 ? cl_int *errcode_ret) 示例demo:将GPU上的数据映射到CPU内存,再将CPU上的内存映射回GPU

    5K20发布于 2020-12-11
  • 来自专栏DearXuan的博客文章

    C#的GPU加速方法

    Stopwatch watch2 = new Stopwatch(); watch2.Start(); Sum(p, a, b, size); watch2.Stop(); Console.WriteLine("GPU 测试代码是计算4亿个数的和,可以看到GPU计算比CPU计算少了300毫秒,但是CPU在循环2亿次的情况下居然仅仅比GPU多了300毫秒,这是因为GPU无法从内存读取数据,需要把数据先复制到显存里才能计算 现实情况下,循环体里不可能只有一行代码,假设循环体里有10个语句,那么CPU的执行时间就会翻10倍,而GPU的执行时间也会翻10倍,但是由于主要耗时操作是数据的复制,所以实际增长不会特别明显。 } watch1.Stop(); Console.WriteLine("CPU耗时:" + watch1.Elapsed.TotalMilliseconds); 这次改用100万量级的数据 现在GPU

    1.9K10编辑于 2022-01-19
  • 来自专栏陶陶计算机

    tensorflow GPU版本配置加速环境

    import tensorflow as tf tf.test.is_gpu_available() 背景 环境:Anaconda 、tensorflow_gpu==1.4.0 (这里就用1.4.0版本做演示了 Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\lib\x64 C:\Program Files\NVIDIA GPU Computing Toolkit\ Download and install CUDA 8.0 from this URL: https://developer.nvidia.com/cuda-toolkit 5.模型gpu加速训练: # 测试tensorflow\_gpu版本加速效果代码 from datetime import datetime import math import time import tensorflow 给你带来训练时的高速了,个人觉得还是得有一块好的显卡,这样加速效果会更好,速度更快。。。。

    1.2K30编辑于 2022-05-12
  • 来自专栏python pytorch AI机器学习实践

    pytorch基础知识-GPU加速

    本节比较简单,介绍一个显卡加速功能。 一般我们在使用笔记本电脑或者台式机进行神经网络结构计算时,默认使用cpu计算,但cpu运算速度十分有限,一个专门搞学术研究的人常配备一个英伟达显卡来加速计算。 GPU加速功能可以将运算切入到显卡中进行,从而提高运算速度。 该方法在pytorch 0.3版本以前较麻烦,当时是在代码后面加入.cpu()进行。 首先定义device(设备),再调用.to函数 在使用该项功能前 首先确认自己电脑有GPU英伟达显卡,且支持CUDA模块, 随后确认自己电脑里安装了CUDA, 可以使用该代码来查看当前环境是否支持CUDA = optim.SGD(net.parameters(), lr=1e-3) criteon = nn.CrossEntropyLoss().to(device) # 同样将loss部分的计算转移到GPU 上去 同样的,数据部分也可以转移到GPU上去 data, target = data.to(device), target.to(device) 这里要注意同一个数据在CPU和在GPU上建立后是完全不一样的

    1.3K10发布于 2019-11-17
  • 来自专栏博文视点Broadview

    GPU进行TensorFlow计算加速

    为了加速训练过程,本文将介绍如何如何在TensorFlow中使用单个GPU进行计算加速,也将介绍生成TensorFlow会话(tf.Session)时的一些常用参数。 而一台机器上不同GPU的名称是不同的,第n个GPU在TensorFlow中的名称为/gpu:n。比如第一个GPU的名称为/gpu:0,第二个GPU名称为/gpu:1,以此类推。 CPU上(比如a_gpu和a_gpu/read),而可以被GPU执行的命令(比如a_gpu/initial_value)依旧由GPU执行。 ''' 虽然GPU可以加速TensorFlow的计算,但一般来说不会把所有的操作全部放在GPU上。一个比较好的实践是将计算密集型的运算放在GPU上,而把其他操作放到CPU上。 # 只使用第二块GPUGPU编号从0开始)。在demo_code.py中,机器上的第二块GPU的 # 名称变成/gpu:0,不过在运行时所有/gpu:0的运算将被放在第二块GPU上。

    2.5K00发布于 2020-06-11
  • 来自专栏Java项目实战

    【玩转 GPUGPU加速AI开发:硬件技术与实践探索

    GPU作为一种强大的硬件加速器,由于其对计算密集型任务的高效加速和优质图形处理能力的突出表现,正成为越来越多的AI应用领域的首选设备。 该技术使用基于GPU的Tensor Cores进行了深度学习网络训练、推理加速,使图像生成速度更快、画面更加精细。 此外,Sketch-RNN和Pix2Pix这种基于卷积神经网络的算法也使用GPU进行训练和加速,并且在人工智能创意拓展领域中有很好的实践效果。 这种基于语音处理技术的AI技术也可以使用GPU进行加速。比如,当一段长时间语音需要生成后,可以使用GPU进行批量计算,来加速任务的完成,同时使得AI语音合成的效果更加的自然流畅。 图片结语GPU加速的AI开发和实践探索,不断创新的GPU硬件技术,以及对这些技术进行量身定制以满足特定市场需求的技术创新都表明,GPU将会成为未来人工智能领域最重要的设备之一。

    1.9K00编辑于 2023-05-25
  • 来自专栏腾讯高校合作

    【犀牛鸟论道】深度学习的异构加速技术(一)

    在讨论之前,先上一张经典的类比图:分别以“可编程能力/灵活性”和“开发难度/定制性/计算效率/能耗”为横轴和纵轴,将CPU与当前主流异构处理器,如GPU、FPGA、专用ASIC等进行比较。 为了解决这一问题,一方面,为了保证通用性,兼容低数据复用的高带宽场景,GPU内部设计了大量分布式缓存;另一方面,GPU的显存始终代表了当前可商用化存储器的最新成果。 因此,相比于CPU,GPU具备更高的计算性能和能耗比,但相对的通用性和带宽竞争使其能耗比依然高于FPGA和ASIC,并且性能依赖于优化程度,即计算模型和数据调度要适配GPU的底层架构。 图1.6 HBM与片内垂直堆叠技术 在后续篇幅论述中,由于这两个阶段的构架方案有较大区别,故拆分为2篇: 深度学习的异构加速技术(二)带宽扼喉下的百花齐放 深度学习的异构加速技术(三)工业界的算力释放 Computer System Design", Hotchips2017, 2017 本文转载自:腾讯架构师 作者简介 于潇宇,博士,高级研究员,隶属腾讯TEG-架构平台部,主要研究方向为深度学习异构计算与硬件加速

    1.2K50发布于 2018-03-21
  • 来自专栏腾讯高校合作

    【犀牛鸟论道】深度学习的异构加速技术(二)

    一、综述 在“深度学习的异构加速技术1”一文所述的AI加速平台的第一阶段中,无论在FPGA还是ASIC设计,无论针对CNN还是LSTM与MLP,无论应用在嵌入式终端还是云端(TPU1),其构架的核心都是解决带宽问题 当模型剪枝结合稀疏处理构架,将成倍提升FPGA和ASIC的计算能力,效果显著,是异构加速的热点之一。 相对而言,GPU的计算单元只能以32/16/8bit为单位进行运算,即使运行二值模型,加速效果也不会比8bit模型快多少。因此,二值网络成为FPGA和ASIC在低功耗嵌入式前端应用的利器。 在下一篇中,将以工业界的方案为例,论述AI处理器的发展和现状,敬请等待: 深度学习的异构加速技术(三)工业界的算力释 ? 作者简介 于潇宇,博士,高级研究员,隶属腾讯TEG-架构平台部,主要研究方向为深度学习异构计算与硬件加速、FPGA云、高速视觉感知等方向的构架设计和优化。

    1.6K40发布于 2018-03-21
领券