首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏blog(为什么会重名,真的醉了)

    Colab-免费GPU

    。 由于GPU适合计算密集型,CPU适合IO密集型,所以对于深度学习中的大量矩阵运算使用GPU会更快,而且Colab支持PyTorch、TensorFlow、OpenCV等框架,不必自己再去搭环境。 Colab也提供了付费服务,包括9.99刀每月的Pro和49.99刀每月的Pro+版,对应更好的GPU。Google Drive也可以付费扩容。 : 查看GPU参数: ! /opt/bin/nvidia-smi 全靠运气,这次分到了T4 o( ̄▽ ̄)o 从知乎上参考各GPU比较: 装载云盘 ---- 由于是云端,所以本地数据需要上传到云盘,然后Colab从云盘中获取数据

    6.6K21编辑于 2022-10-04
  • 来自专栏腾讯云原生团队

    GPU虚拟化,隔离,和qGPU

    所以,很显然,GPU 池化也必须以同时满足故障隔离和隔离的方案作为基础。 3.4 隔离的本质 从上述介绍中,我们可以看出:隔离、故障隔离都是 GPU 虚拟化、GPU 池化的关键,缺一不可。 的开销,也在 Context 内部实现了隔离。 Fixed Share: 每个 vGPU 有自己固定的 GPU 配额 现象: 每个 vGPU 严格按照创建时的规格来分配。 注释 【1】 测试数据来自 T4(chip: TU104)。其它 chip 上,正确性、功能性和性能都待验证,虽然原理上是相通的。 【2】两个 PoD 的配比为 2:1。 可以看到,batch 较小时,负载较小,无法反映配比;随着 batch 增大,qGPU 和 MPS 都趋近理论值 2,vCUDA 也偏离不远,但缺乏隔离的业界某产品则逐渐趋近 1。

    15.3K158发布于 2021-06-02
  • 来自专栏深度学习与python

    稀缺时代,如何把 GPU 用“满”

    推理的典型在线场景中,单卡 GPU利用水平甚至只有 20%–30%。 也就是说,在 GPU 持续短缺的情况下,诸多已部署的未实现充分利用。 为解决这一矛盾,业界其实进行过很多尝试。 4 跨行业实践:当 GPU 共享走向生产可用 当 GPU 共享真正拥有稳定隔离以及统一调度能力后,其价值开始在各行各业的业务中逐步被验证。 1. 从运行的实际效果看,业务部署密度提高了 1 - 3 倍,GPU 能同步承载更多推理实例,以往无法利用的碎片被填满。 只有当 GPU 像 CPU 那样实现被治理,而不是被抢占,紧张的问题,才有可能在结构上获得缓解。

    39510编辑于 2025-12-31
  • 来自专栏ATYUN订阅号

    使用集成GPU解决深度学习的难题

    有很多基于云端的方法看起来是可行的,但是对于配置有内部基础设施或混合结构体系的负载任务它们又无能为,就算是大型企业的许多数据科学家和专业的IT人员在开始他们的AI、ML、DL计划时,这个难题也让他们感到困惑不已 但是,在企业环境中使用GPU依然具有许多挑战性,例如: 1.它们需要一个复杂的软件,用来跨越可能难以安装和维护的操作系统、中间代码和应用程序库。 2.GPU不易共享。 这意味着即使GPU通过集成进行共享,它们也不会被充分利用,除非在应用程序运行时可以自由切换GPU! ? 但是需要新的功能,那就是根据需要,弹性地提供GPU资源,使集成化的ML、DL应用程序可以通过访问一个或多个GPU快速、轻松地运行。新的集成化环境可以按需配置,在不需要时取消配置(释放GPU)。 这允许IT管理员监控使用情况,并在执行GPU特定代码时重新分配GPU

    1.8K20发布于 2019-09-08
  • 来自专栏高级开发进阶

    【玩转 GPUGPU硬件技术:解析显卡、显存、等核心要点

    创新性:先进硬件架构与制程技术GPU硬件技术在硬件架构和制程技术上持续创新,许多GPU实现高度并行化设计,以充分利用多核处理器和多线程技术提高性能,并采用先进制程降低功耗与提升能效。2. 可借鉴性:性能测评与功耗管理策略为评估GPU性能,需要进行基准测试与功耗测试。通过运行特定应用程序或测试场景评估性能和能效,并采用动态电压与频率调整技术、节能技术和动态调度策略,实现更高能效。4. 代码规范度:GPU编程模型与库在编写高性能GPU应用程序时,严格遵循代码规范至关重要。使用统一编程接口和数据类型,遵循良好编程实践和优化技巧,利用GPU硬件技术生态系统提高开发效率。5. 与云计算能力结合:云端GPU资源租赁将GPU硬件技术与云计算能力相结合,实现更高性能、更低成本和更好资源共享。云端GPU资源租赁使用户能灵活配置计算资源,降低硬件成本,实现快速应用部署。 与大数据处理结合:高速处理与分析GPU硬件技术在大数据处理领域具有显著优势。通过高性能GPU加速器实现对海量数据的高速处理和分析,满足大数据应用需求。

    1.9K11编辑于 2023-06-01
  • 来自专栏高级开发进阶

    【玩转 GPUGPU硬件技术:深入解析显卡、显存、等关键技术

    GPU硬件技术:深入解析显卡、显存、等关键技术在现代计算设备中,GPU(图形处理器)扮演着至关重要的角色。本篇文章将深入解析有关GPU硬件的技术知识,涵盖显卡、显存、等关键方面。 显存技术:带宽、容量与延迟显存是GPU的重要组成部分,用于临时存储图形数据。显存的带宽、容量和延迟对GPU性能有直接影响。带宽指显存与GPU之间的数据传输能力,而容量则决定了显存能够存储的数据量。 延迟则是显存与GPU之间数据传输所需的时间,过低的延迟有利于减少数据传输瓶颈。3. 技术:并行计算与浮点性能GPU的重要性能指标,直接反映了其处理图形数据的能力。 现代GPU通常采用大量的流处理器,以实现高度并行化的计算任务。浮点性能是衡量GPU的另一个关键指标,包括单精度(FP32)和双精度(FP64)计算能力。4. 总结:GPU硬件技术涵盖了显卡、显存、等关键方面。本文从硬件架构、性能测评、功耗管理等角度深入解析了GPU硬件技术的核心要点,旨在帮助开发者更好地理解和运用GPU技术。

    4.1K11编辑于 2023-06-01
  • Coze玩转ChatGPT-4,存解决大模型

    本篇文章将从费用和两个方面出发,先介绍一种免费使用ChatGPT-4的工具——Coze,再介绍可有效解决大模型需求的存架构。 二.大模型及存架构上一章节介绍了一种免费使用ChatGPT-4的工具,可以解决ChatGPT-4的费用问题,下面我将简单介绍ChatGPT-4引出的大模型需求,并介绍一种解决方案——存架构。 如图44所示,大模型的需求增长速度约为750倍/2年,而芯片增长速度则仅为3.1倍/2年大模型需求与芯片的不匹配已经成为当前主要矛盾。 图 44 大模型训练需求与芯片增长速度的对比[5]大模型的训练和推理不仅计算密集,而且极度依赖数据传输效率。 这种架构能显著提高数据处理速度,降低能耗,是解决大模型需求的一种具有极大前景的技术。根据计算范式的不同,存一体可以主要分为模拟式和数字式两种[6]。

    2.3K10编辑于 2024-05-14
  • 来自专栏新智元

    GPU称霸超TOP500最新榜单】美国重夺全球超霸主,总算56%来自GPU

    Summit超有4356个节点,每个节点配备2颗22核的Power9 CPU和6颗NVIDIA Tesla V100 GPU。节点与Mellanox双轨EDR InfiniBand网络连接在一起。 同样由IBM打造的Sierra超的架构与Summit非常相似,有4320个节点,每个节点均由两颗Power9 CPU和四颗NVIDIA Tesla V100 GPU驱动,并使用相同的Mellanox 天河二号的新硬件将其HPL性能从33.9 petaflops提高到61.4 petaflops,同时将功耗略微提高了约4%。天河二号由中国国防科技大学(NUDT)开发,部署在国家超级计算广州中心。 此外,使用加速器的系统中有7个配备了Xeon Phi协处理器,而PEZY加速器被用在4个系统中。另外20个系统使用Xeon Phi作为主处理器。 Green500中排名前三的超都来自日本,它们基于ZettaScaler-2.2架构,使用PEZY-SC2加速器。而前10名中的其他系统都使用NVIDIA GPU

    1.6K00发布于 2018-07-31
  • 来自专栏CSDN社区搬运

    LVLMs,gpt4平替

    其实非常好理解,简单来说就是GPT4o干的事情,输入一张图片和一句话,LVLMs会给出一个回答。GPT4目前是闭源的,目前开源的做法都是想法了接近gpt4的性能。 而对于研究人员而言,没有强大的的支持,也只能在一些小规模的LVLMs上寻找一些方法上的创新。下面将介绍一种MOE-LLaVA的方法。

    29910编辑于 2025-01-02
  • 来自专栏AI前沿技术

    显卡基础知识|英伟达开挂的GPU

    AI模型训练和推理对的要求各有特点,如何在具体的场景下综合权衡选择显卡,怎样才能达到性能、能耗和成本的最佳平衡。 显卡的在不同的数值精度下是不同的,浮点精度一般包括,双精度(FP64)、单精度(FP32、TF32)、半精度(FP16、BF16)、8位精度 (FP8)、4位精度(FP4、NF4)。 • FP8/FP6/FP4:目前只有特定类型的显卡,对硬件优化才支持。 下表是在不同数值下A100、H100 和H200的。 1.3 计算 以NVIDIA A100 GPU为例,通过以下参数计算其理论峰值。 • CUDA核心数:6912个,即108个SM,每个SM包含64个CUDA核心。 Blackwell 布莱克韦尔 2024 4nm/5nm B200, GB200 3,超级芯片Superchip 超级芯片一言以蔽之: CPU+GPU 并利用NVLink高速互联技术构建的单元。

    1.6K10编辑于 2026-01-13
  • 来自专栏数值分析与有限元编程

    Q4单元等效节点

    Q4单元的等效节点 在前一篇得到面力作用下Q4单元的等效节点计算公式: 例 [cv8emepl9j.png] 显然, 注意,这里已经是一元函数积分了,是常数1. , 1] # eta的坐标是1 x = [1, 2, 3, 0] # 单元节点的x坐标 y = [0, 0, 1, 1] # 单元节点的y坐标 f3tx = 0 f3ty = 0 f4tx = 0 f4ty = 0 for i in range (2): N3 = 0.25 * (1 + xi[i]) * ( 1 + eta[i]) N4 = 0.25 * (1 - xi = f4tx + N4 *( tau*J11 - sigma * J12 ) f4ty = f4ty + N4 *( sigma*J11 + tau * J12 ) print(f3tx ,f3ty,f4tx,f4ty)

    89210发布于 2020-05-18
  • 来自专栏产品经理的人工智能学习库

    – computation

    文章目录 人工智能里的是什么? 在普通电脑中,CPU就提供了帮助电脑快速运行。玩游戏的时候需要显卡提供,帮助电脑快速处理图形。 而在 人工智能中,需要有类似CPU和GPU的硬件来提供,帮助算法快速运算出结果。 之前在算法里讲过,在制造木桌的过程中,工厂的流水线就是算法。 在那个例子中,工厂中的机器就像,机器越好越先进,制造的过程就越快。 ? 越大,速度越快 维基百科版本 Techpedia版本 是使用计算机技术完成给定目标导向任务的过程。 可以包括软件和硬件系统的设计和开发,用于广泛的目的 – 通常构建,处理和管理任何类型的信息 – 以帮助追求科学研究,制作智能系统,以及创建和使用不同的媒体娱乐和交流。 查看详情 维基百科版本 是使用计算机的任何活动。它包括开发硬件 和软件,以及使用计算机来管理和处理信息,进行交流和娱乐。是现代工业技术的一个至关重要的组成部分。

    2.6K30发布于 2019-12-18
  • CPU与GPU演进:从串行控制到并行革命

    一、CPU 演进:从单核串行到并行扩展早期 CPU 评估高度依赖时钟频率(GHz)这一单一指标,程序员们追逐着 Intel 和 AMD 的主频大战。 与 CPU 的“复杂控制”不同,GPU 将 80% 以上芯片面积用于 ALU(算术逻辑单元),专为数据并行任务优化4。 但需注意:GPU 的高依赖于高度规整的数据并行模式,对于分支密集型任务效率反而低于 CPU。 三、CPU vs GPU:架构差异决定本质理解两类处理器的结构差异是精准评估算的前提:特性CPUGPU核心目标低延迟通用计算高吞吐并行计算核心数量通常 4-128 核上千至万级流处理器核心复杂度复杂指令调度 这证明:效率高度依赖算法与架构的匹配度。

    2.2K20编辑于 2025-08-19
  • 一文梳理:如何构建并优化GPU中心?

    目前最常见的AI中心部署的GPU集群大小为 2048、1024、512 和 256,且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 GPU卡(H100)的规模为例展开分析。 01 计算节点的选型计算节点是AI中心的建设报价中最昂贵的部分,一开始拿到的 HGX H100 默认物料清单(BoM)往往使用的是顶级配置。 结合实际,奔着GPU而来的客户无论如何都不会需要太多 CPU ,使用部分 CPU 核心进行网络虚拟化是可以接受的。 08 多租户隔离参考传统CPU云的经验,除非客户长期租用整个GPU集群,否则每个物理集群可能都会有多个并发用户,所以GPU中心同样需要隔离前端以太网和计算网络,并在客户之间隔离存储。 AI租赁场景的虚拟化程度一般是到单卡层次,即直通独占(pGPU)——利用 PCIe 直通技术,将物理主机上的整块GPU显卡直通挂载到虚拟机上使用,原理与网卡直通类似,但这种方式需要主机支持IOMMU

    2.5K11编辑于 2024-10-24
  • 来自专栏PaddlePaddle

    十月深度学习月福利 GPU每日免费用!

    通过上面链接能申请到 48 小时的卡(有效期 1 个月),并且可以分裂,送给别人(稍后送上我的分裂卡)。 使用卡的方法很简单,在运行项目时选上 GPU,就会开始使用了,如下图。 ? 原先是每天跑一次可以得到 12 小时卡(有效期 2 天),十月份变成跑一次送24小时卡,另外充电计划,就是连续 5 天有使用卡,就会额外送 48 小时(有效期 7 天)。 下面是我的卡奖励历史,感觉只要你用,AI Studio 就送你,不担心算不够。 ? 3.3 卡分裂 AI Studio 的卡有分裂功能,你申请到卡会有三个邀请码,你可以分享给你的朋友。 我申请的卡有三个分裂,我每天会在评论区放一个卡,对羊毛贪得无厌,或者懒得申请又想马上使用的,那可要盯紧评论区了。后续我再薅到新的卡就会评论区更新,先到先得,希望各位多多关注本文。

    3.1K20发布于 2019-10-14
  • 来自专栏object

    【玩转GPU】全面解析GPU硬件技术:显卡、显存、和功耗管理的核心要点

    摘要:本文将全面探讨GPU硬件技术,从硬件架构到性能评估,深入揭示显卡、显存、和功耗管理等关键要点。了解GPU硬件技术对于优化应用性能、加速计算任务以及推动科学研究具有重要意义。 三、与性能评估:是衡量GPU性能的关键指标之一,表示每秒执行的浮点运算次数。常用的衡量单位是FLOPS(Floating Point Operations Per Second)。 除了,显存带宽、核心频率和内存带宽等因素也GPU性能。性能评估可以通过基准测试(Benchmarking)来完成,常用的测试套件包括3DMark、SPECviewperf和DeepBench等。 计算能力(吞吐量)一个非常重要的性能指标就是计算吞吐量,单位为GFLOP/s,指标Giga-FLoating-point OPerations per second表示每秒的浮点操作数量。 在本文中,我们深入探索了GPU硬件技术的核心要点,包括硬件架构、显存技术、与性能评估以及功耗管理。

    17.9K30编辑于 2023-06-26
  • 来自专栏大语言模型,算力共享

    共享:环形结构的分配策略

    ​目录共享:环形结构的分配策略方法签名方法实现注意事项nodes.sort(key=lambda x: (x[1].memory, x[0]), reverse=True)end = round (start + (node[1].memory / total_memory), 5)共享:环形结构的分配策略这段代码定义了一个名为RingMemoryWeightedPartitioningStrategy

    95220编辑于 2024-07-26
  • 来自专栏科技云报道

    之后,“存”上位

    芯片的摩尔定律逐渐逼近物理极限,存开始从幕后走向台前,成为AI领域下一个关键赛点。 长期以来,伴随企业数字化转型所建设的“烟囱式”AI基础设施各自为战,数据奔流,价值却困于“堰塞湖”。 存中心作为新型的数据基础设施,正成为AI时代数据流通和融合应用的破题关键。 AI时代的 “数据决定论” AI技术的发展离不开三大要素:数据、算法和。 从ImageNet的1400万张图像到GPT-4的45TB文本数据,海量的多模态数据为AI模型提供了丰富的训练素材。 构建AI时代新型 “数据粮仓” 与聚焦在“”不同,数据存聚焦在“数”和“存”,是数据生产要素处理的综合能力体现,肩负着为数字经济各种场景提供源源不断的“生产资料”的使命。 将目光投向更长远,新型AI存储很可能是撬动人工智能时代杠杆的另一个支点,“以存强”“以数助”亦是弯道超车的重要落点。当AI产业具备扎实的存底座,才能登高远眺,看见AI时代最美的风景。

    41700编辑于 2025-06-19
  • 国产GPU新突破,单卡FP8突破1000T!

    马年农历春节前夕,国产智卡再度迎来好消息!单卡FP8终于冲上1000TFLOPS了。 虽然国产GPU厂商摩尔线程在两年前就推出了专门面向大模型训练、推理及高性能计算设计的全功能GPU卡MTT S5000,但是具体的架构、参数和性能一直并未对外公布。 这不仅是国产GPU首次在单卡吞吐量上摸到国际顶尖门槛,更是为万亿参数大模型提供了真正可用的自主底座。 一、 核心参数对标:1000TFLOPS与全精度覆盖 MTT S5000在设计之初便定位于“训推一体”的全功能基座,其硬件参数展现了极强的竞争优势: ●峰值: S5000单卡AI(FP8)最高可达 作为2025年12月发布的全功能GPU新架构,“花港”不仅支持FP4到FP64的全精度计算,更实现了计算密度提升50%、能效比跃升10倍的突破。

    41710编辑于 2026-03-19
  • 来自专栏机器之心

    国内免费GPU资源哪里找,最新薅羊毛方法在此

    通过上面链接能申请到 48 小时的卡(有效期 1 个月),并且可以分裂,送给别人(稍后送上我的分裂卡) 使用卡的方法很简单,在运行项目时选上 GPU,就会开始使用了,如下图。 ? 3.2 跑项目赚卡 这个简直了,你不仅可以运行自己的深度学习代码,测试自己的项目,而且同时还会得到卡。 下面是我的卡奖励历史,感觉只要你用,AI Studio 就送你,不担心算不够。 ? 3.3 卡分裂 AI Studio 的卡有分裂功能,你申请到卡会有三个邀请码,你可以分享给你的朋友。 我申请的卡有三个分裂,我每天会在评论区放一个卡,对羊毛贪得无厌,或者懒得申请又想马上使用的,那可要盯紧评论区了。后续我再薅到新的卡就会评论区更新,先到先得,希望各位多多关注本文。

    6.1K30发布于 2019-09-24
领券