首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏LET

    GPGPU简介

    GPGPU编程 目前,我所了解的主要有三种,Compute Shader,CUDA和OpenCL,这个是个人的优先级。在编程角度,思想上都大同小异。 其次,作为运算的参数和结果,我们尽可能减少内存和显存之间的转换,比如我们计算创建一张纹理(GPU),getBits(RAM),然后OpenGL渲染(GPU),在这种场景下,如果在GPGPU中的纹理能够直接对应 GPGPU的应用 首先,大规模的计算,比如CNN神经网络或者挖矿,这类应用最适合GPU,没有太多技术难点,就是怕GPU闲着,堪称GPU的996。

    2.6K20发布于 2019-05-10
  • CUDA 线程ID 计算方式;NVIDIA GPGPU

    thread ID 的计算方式,简单来说很像小学学的除法公式,本文转载自同学一篇博客;并进行简单修改;

    2.2K10发布于 2021-02-26
  • 来自专栏陌上风骑驴看IC

    GPGPU: C记 RTL 到Signoff 流程全解密

    2021 CadenceCONNECT:异构计算设计——GPGPU完整解决方案 ? 关键字:GPGPU 预测布局 Glitch Power OCV 概要 1 Overview of GPU 在谈论 GPGPU 之前,我们先聊下 GPU。 1.2 GPGPU 发展及未来趋势 近年来,在摩尔定律严谨的放缓和 GPU 在通用计算领域高速发展的此消彼长之下,通用图形处理器(GPGPU)逐渐反客为主,将应用范围扩展到图形之外,无论是科研教育、财务计算 GPGPU 拥有较强的优势,第一,GPGPU 提供了多个并行计算的基础结构,可以执行海量数据的并行计算;第二,GPGPU 拥有更高的访存速度;第三,GPGPU 拥有更高的浮点运算能力。 3 Cadence GPGPU 解决方案 从 GPGPU 未来趋势和眼下所面临的挑战出发,Cadence 提供了从 RTL 到 Signoff 的一系列完整的解决方案,每套解决方案,都从全局出发,在解决每项挑战的情况下

    2.9K40发布于 2021-07-20
  • 2025年国内外12家GPGPU产品大盘点

    ,而近年来随着HPC、人工智能、云的发展,GPGPU的市场规模也在进一步扩大。 今天就让我来带大家了解一下这些国内外厂家的GPGPU产品吧。 近日,芯原发布了GPGPU-AI计算IP是面向高性能AI计算的产品。 但它做的并不是传统意义上的GPGPU,而是带能画又能算的带AI外挂的渲染GPU。 同样,它的赛道也不是GPGPU,而是低功耗AI推理加速卡和边缘AI加速卡。 11.海光 海光的DCU(Deep Computing Unit)虽然名字不是GPGPU,但它确实属于GPGPU

    2.2K10编辑于 2025-08-01
  • 来自专栏xingoo, 一个梦想做发明家的程序员

    CUDA入门

    CUDA API包括三个,从低到高等级分别为 Thrust API  Runtime API   Driver API 用于CUDA的GPU是安装于主机系统中的独立设备 GPGPU运行在一个和主处理器相隔离的存储空间中 CUDA Kernel是可在主机代码中调用而在CUDA设备上运行的子程序(Kernel没有返回值) Kernel的调用时异步的,即主机仅仅把要执行的Kernel顺序提交给GPGPU,并不等待执行完成, 使主机进入阻塞状态   cudaMemory() 实现阻塞式数据传输 GPU上的基本运行单位是线程 GPU上最大的可共享的内存区域成为全局内存   常量内存、高速缓存、共享内存、局域内存、纹理内存、寄存器 GPGPU 编程的三条法则   1 将数据放入病始终存储于GPGPU     pcie总线速度大概是8gb/s,而GPU全局内存的速度大概是160-200gb/s   2 交给GPGPU足够多的任务     传输数据还要消耗时间 ,因此,最好让GPU工作时间能补偿传输所浪费的资源   3 注重GPGPU上的数据重用,以避免带宽限制     尽量重用数据以获取高性能 回归测试:经常用一段代码作为回归测试,测试kernel函数的正确性

    79591发布于 2018-01-17
  • 来自专栏Fish

    在docker里跑gpgpusim

    使用gpgpusim官方vbox虚拟机 gpgpusim官方提供了vbox虚拟机文件的下载,大概7G多, http://ece.ubc.ca/~taylerh/files/gpgpu-sim/gpgpu-sim.vm.tar.gz 在该目录下建立libsim,将vbox虚拟机里编译好的/home/gpgpu-sim/gpgpu-sim_distribution/lib/gcc-4.6.4/cuda-4020/release/libcudart.so 新建目录/home/find/e/gpgpusim/cuda/,将vbox虚拟机里/home/gpgpu-sim/cuda/toolkit/4.2/cuda/bin文件夹拷贝到这里,即/home/find 运行 以vectoradd为例,在host的gpgpusim文件夹下建立test文件夹,并拷贝vectoradd.cu文件以及gpgpusim提供的配置文件(在/home/gpgpu-sim/gpgpu-sim_distribution

    1.4K30发布于 2019-05-28
  • 来自专栏芯智讯

    龙芯3C6000芯片初样已回片:测试符合预期,将于四季度发布!

    这也为龙芯后续的CPU与CPU互联、CPU与GPGPU互联、GPGPUGPGPU互联提供高速缓存一致性协议传输。 基于此,龙芯3C5000也可以通过龙链技术实现片间高速互联,可以实现双硅片 32 核 64 线程、四硅片 64 核 128 线程,并且支持 GPGPU、各类加速器扩展。 编辑:芯智讯-浪客剑

    25510编辑于 2024-07-02
  • 来自专栏Dance with GenAI

    AI如何变革软件和硬件开发的范式?

    解决方案需借鉴GPGPU 架构,结合开源技术与开放标准,通过协作创新避免供应商锁定,实现硬件可编程性与可持续扩展,最终降低功耗、延长硬件生命周期并提升投资效率。 三、软件定义硬件(SDH)与 GPGPU 架构的应用 SDH 核心设计原则 保留传统编程模型,减少软件迁移成本(如兼容现有代码库)。 GPGPU 的适配性 针对 AI 工作负载的高并行、多线程特性设计,支撑前沿研究(如当前 90% 的 AI 模型开发基于 GPGPU)。 五、未来就绪的硬件策略 设计目标:开发支持开源生态的可编程 GPGPU 架构,平衡当前效率与未来适应性。 优先选择参与开源社区的供应商,以实现: 投资优化:硬件可随软件升级延长使用周期。

    39910编辑于 2025-06-17
  • 来自专栏数字芯片

    浅谈国产GPU发展

    从开发人员团队数量来看,GPGPU如需要200人的硬件团队,渲染GPU可能要再增加50人,但软件开发人员相比GPGPU或需增加三倍,需要更多的人员开发驱动和编译器等。”杨建说。 “芯动科技目前聚焦于渲染GPU领域,但GPGPU也在规划之中,芯动科技选择的是一个起步很难但可以走得很远的赛道。虽然GPGPU的价值很高,增长也不错,但图形渲染GPU在细分市场总的体量更大。” 因此,沐曦采取先做GPGPU,再发展图形渲染GPU的模式。在自研GPGPU中,只有统一着色器IP,不需要固定渲染流水线,这样可以在自研GPU的道路上一步一个脚印稳健前行。 而在GPGPU领域,几乎是被英伟达一手打造的CUDA生态所垄断。“GPGPU的生态非常复杂,要求一路打通到应用层,提供面向所有应用的全面支持,甚至要自主开发以支持一个新的应用领域。”杨建指出。 杨建则表示,在GPGPU方面,英伟达没有百分百的优势,国内GPGPU在某些方面可以说是超越的。国内厂商在HPC和服务器、通用计算等领域可以依托Linux的开放性和可控性强的优势,实现有效突破。

    2.1K31编辑于 2022-09-19
  • 来自专栏AI科技评论

    业界丨格灵深瞳 CEO 赵勇亲自撰文:Nvidia 成功背后的远见与坚持

    可以这么说,如果没有GPGPU,坚持研究了二十多年神经网络算法的Yann LeCun和Hinton教授们,恐怕还得继续在学术界被继续埋不少年。 从此以后我就认定了GPGPU是人工智能的重要解决方案,我的科研人生就此走上了康庄大道。 EPSON的实习结束后,我申请了Nvidia Research lab的实习生,希望深入研究一下GPGPU在计算机视觉信号处理中的应用。 今天,格灵深瞳的所有产品(硬件部分)都采用了Nvidia的GPGPU处理器。 有人说是深度学习技术成全了NV的GPGPU,要不然NV这么多年对科学运算大规模的投入可能就打水漂了。其实我认为,反而是GPGPU技术,成全了深度学习技术。

    1.3K70发布于 2018-03-09
  • 来自专栏帅云霓的技术小屋

    大模型与AI底层技术揭秘 (3) 圆周率里的奥秘

    Geforce256 这一代GPU,相对于以Voodoo、TNT为代表的专用图形GPU,最大的改进就是,使用具有通用计算(加减乘除)能力的计算单元,代替专用的三角形计算引擎,并在指令层级实现通用计算的能力,也就是所谓的GPGPU GPGPU的实现,我们可以理解为,首先将CPU极度简化,精简掉其中大部分内存管理、IO、中断与异常处理等控制指令,仅保留大大简化的ALU(Arithmetic and Logic Unit)及所必须的控制电路 ,并为其提供适合并发运算的寄存器,作为GPGPU的基本运算单元。 与图形GPU相比,GPGPU甚至有可能精简掉大部分图形专用的功能,如光影追踪计算单元和渲染单元,甚至把连接显示器的接口都精简到,使其成为纯粹的异构计算单元,用于提供算力。

    60540编辑于 2023-10-08
  • [C#]C#最简单方法获取GPU显存真实大小

    一种方法是使用cudafy.NET这个库 GPGPU gpu = CudafyHost.GetDevice(CudafyModes.Target, CudafyModes.DeviceId); var Console.WriteLine(p); 源码:GitHub - lepoco/CUDAfy.NET: CUDAfy .NET allows easy development of high performance GPGPU

    25800编辑于 2025-07-20
  • 来自专栏程序员叨叨叨

    1.3 国内外研究现状

    近年来,基于GPU进行通用计算的研究逐渐成为热点,被称之为GPGPU (General-Purpose Computing on Graphics Processing Units,也被称为GPGP,或 关于GPGPU的更多知 识点可以参阅网站http://gpgpu.org/。 旨在降低 GPU 编程难度,设计基于 GPU 的高级程序语言的研究同样进行的如火如荼。

    1.3K20发布于 2018-08-28
  • 来自专栏Rust语言学习交流

    【Rust 日报】2021-11-07 rsqlite3:Rust版sqlite3

    output directory for downloads GitHub:https://github.com/agourlay/dlm gpgpu-rs :基于wgpu的GPU计算库 向量 A B 相乘并将结果存入 C 的例子: use gpgpu::*; fn main() -> GpuResult<()> { let fw = Framework (a.pow(2), b); } Ok(()) } GitHub:https://github.com/UpsettingBoy/gpgpu-rs From 日报小组 长琴 社区学习交流平台订阅

    64240发布于 2021-11-12
  • 来自专栏芯智讯

    天数智芯:目标拿下NVIDIA中国区营收的10%!四季度将发首款7nm云端推理通用GPU“智铠100”

    △天数智芯首席技术官吕坚平 资料显示,天数智芯成立 2015 年 12 月,2018 年正式启动 GPGPU芯片的设计研发工作,是国内首家 GPGPU 高端芯片及超级算力提供商。 天垓100为天数智芯自主研制 7 纳米 GPGPU 高端自研云端训练芯片,具有全方位生态兼容、高性能有效算力、指令集编程架构以及软硬件全栈支持等优势。

    1.3K10编辑于 2022-09-07
  • 来自专栏张善友的专栏

    并行计算Brahma :LINQ-to-GPU

    也就是说Brahma是一个并行计算(重点放在GPGPU )的框架,使用LINQ进行流转换工作(LINQ-to-streaming computation 或者 LINQ-to-GPU)。 现在也可以在Mono上运行 注: 通用图形处理器(英語:General-purpose computing on graphics processing units,簡稱GPGPU或GP²U)是一种使用处理图形任务的专业图形处理器来从事原本由中央处理器处理的通用计算任务

    1.6K50发布于 2018-01-22
  • 来自专栏虚拟化云计算

    图解GPU

    从CPU到GPGPU GPU起初是用来处理图像的,但是后来人们发现其并行运算原理不仅可以用在图形渲染上,也可以推广到一般的运算中。 于是GPU的功能就进行了升级,可以进行稍微复杂的工作了,并且可编程,也是就有了GPGPU,即通用图形处理器。 GPGPU其实是对GPU的一种优化,让GPU更加的具有易用性和通用型,GPU应用于AI就是GPU通用属性的一个方向,类似的方向有很多:挖矿、AI训练、HPC高性能计算等。 为此,很多针对GPGPU的并行计算架构就产生了,主要有两个CUDA和OpenCL。 ? 这是图解系列之GPU 关注阅读更多图解

    2.6K40发布于 2021-03-25
  • 来自专栏AI科技大本营的专栏

    RISC-V架构下 DSA - AI算力的更多可能性

    同时 GPU 的架构设计也倾向于提供越来越多的3D能力以外的通用算力,这种设计理念被称为 General-Purpose GPU(GPGPU)。 但这并不是免费的午餐,首先要想把 GPGPU 与 DLA 两块算力同时利用起来软件上就需要比较精巧的异步设计使得 CPU 负载、编解码模块、图像处理模块、GPGPU 以及 DLA 五者流水化并行处理。 但是从NVDIA的官方文档中我们可以看到,DLA 支持了约15种主要 AI 算子的执行,不支持的算子类型将会回退到GPGPU进行运算。 而 Nvidia的GPGPU 硬件的成功,与其 CUDA 生态丰富的算力软件包、易于使用的编程接口、优秀的编译器脱不开干系。 A closer look at GPGPU[J]. ACM Computing Surveys, 2016, 48(4): 1-20.】

    2.1K10编辑于 2023-04-06
  • 来自专栏HyperAI超神经

    Meet AI Compiler丨跨硬件的统一编译生态,TVM/Triton/TileLang 各展所长

    国产 GPGPU 上适配 TVM 可能会碰到的问题。 2. TVM 在国产 GPGPU 上的收益如何,以及哪些方面需要继续突破。 3. 关于 TVM 等 AI 编译器在国产 GPGPU 上的支持现状,并讨论如何拓展相关生态圈。 更多嘉宾敬请期待~ 圆桌讨论 圆桌主题:跨硬件的统一编译生态

    1K10编辑于 2025-06-06
  • 来自专栏数据猿

    英伟达A800也要禁售了?国产GPU厂商们准备好了吗

    相比于图形渲染类GPU,GPGPU能够同时执行多个计算任务,从而大幅提高计算速度和效率。 在AI领域,许多AI算法需要处理大量的数据,计算量庞大。 自英伟达推出GPGPU后,GPU不再局限于图形计算的游戏和PC市场,进而在AI领域开疆拓土。 此外,原CPU厂商龙芯、海光等也在加注GPGPU,不过龙芯GPGPU主要是集成在自家SOC中,预计2024年龙芯将流片。海光信息推出DCU属于GPGPU一种。 从趋势上说,国产GPGPU发展更快、更热闹。” 2018年启动芯片设计的天数智芯,在开发首款产品之初,即瞄准通用GPU产品的通用性及AI领域广泛的应用场景。 除天数智芯外,国产GPU厂商中2019年成立的壁仞,第一代GPGPU产品壁砺系列在2022年底已经量产,并获得了一些订单。

    1.5K20编辑于 2023-09-27
领券