AI算力告急,成本掣肘发展当下,AI技术迅猛发展,从科研领域的复杂模型训练,到日常生活里智能语音助手的实时交互,算力成了决定AI发展的关键因素。 近年来,已有至少16家国产芯片厂商与DeepSeek展开适配合作,显示其在构建多元算力生态上已有所布局。 对开发者来说,更高效的模型意味着更低开发成本和更高效率;对企业用户而言,强大的AI性能能为业务创新提供有力支持,提升竞争力。 若DeepSeek自研AI芯片成功,将为AI应用提供更高效、经济的算力支持,推动AI在智能交通、医疗、金融等领域落地,加速各行业智能化升级。不过,该计划尚处早期,还有技术难题待攻克。 但无论如何,DeepSeek这一举措已在AI领域播下极具潜力的“种子”,其未来发展值得持续关注。公众号:算力之光
作为常年从事计算机算力芯片相关工作的我,今天就从算力芯片这个视角出发,谈谈对国内算力芯片如何实现突围的个人的一些看法。 核心的原因在于,这是目前的GPU计算集群所能支撑的算力上限: 一方面,单芯片算力已经瓶颈,算力增长极度缓慢。 还有一个很重要的原因,就是算力的建设和运营成本,也已经达到了一个天文数字。 目前CPU性能早已瓶颈,GPU性能即将见顶并且成本高昂,而AI芯片太过于专用,不适用于快速变化的模型算法/算子和业务逻辑。 可以在工艺落后1-2代的情况下,实现单个芯片的算力更优。 方法二,算力网络。通过算力网络、东数西算,实现跨集群的算力调度和算力协同,可以实现算力资源的高效利用。 方法三,智能网联。 抓住计算架构变革的历史时机,实现算力芯片的弯道超车! (正文完)---- 更多阅读: 能不能面向通用人工智能AGI,定义一款新的AI处理器? 什么是软硬件融合?
研究人员创造了一种新型的3D计算机芯片,该芯片将存储和计算元件垂直堆叠,极大地加快了芯片内部的数据移动速度。与传统平面设计不同,这种方法避免了制约当前AI硬件的“交通拥堵”问题。 完整报道为测试新型芯片,研究人员使用了一台专用机器(如图片所示)在晶圆上对设计进行自动化电学特性表征。 凭借创纪录数量的垂直连接以及将存储和计算单元紧密放置的紧凑布局,该设计避免了限制平面芯片发展的速度瓶颈。在硬件测试和模拟中,这款3D芯片的性能比2D芯片高出一个数量级。 平面芯片为何难以应对现代AI像ChatGPT和Claude这样的大型AI模型,不断地在存储信息的内存和处理信息的计算单元之间穿梭大量数据。 性能提升与AI硬件的未来在早期的硬件测试中,该原型芯片的性能优于同类2D芯片约四倍。该团队的模拟表明,随着设计通过堆叠更多内存和计算层而变得更高,性能增益会更大。
Nvidia 是 GPU 市场的领导者,其生产的 GPU 被 AI 聊天机器人 ChatGPT 等应用程序和 Facebook 母公司 Meta 等主要科技公司使用。 英伟达仍面临着很多渴望在AI芯片市场分一杯羹的竞争对手,以及希望减少对该公司依赖的企业。 另外,还有人工智能芯片初创公司如雨后春笋般涌现,其中包括Cerebras、Groq和Tenstorren等公司。 为什么这些 GPU 是 AI 所必需的? 由于英伟达在竞争中遥遥领先,AMD也试图在AI芯片领域占据次席。随着对AI芯片需求的增长,AMD股价自去年以来也上涨了约143%。 很多人都会质疑英伟达是否能够独自满足对人工智能芯片不断增长的需求。 所有AI玩家都不希望英伟达吃独食,除了英伟达自己。 这些芯片公司有弱点吗? 尽管英伟达和AMD取得了成功,但它们的供应链仍存在短板(英伟达和AMD是无晶圆厂公司fabless)。
算力即权力:为什么AI芯片至关重要? 走向未来现代人工智能(AI),特别是深度神经网络(DNN),正在驱动一场技术变革。这场变革的燃料不是数据,而是计算。 实现先进AI系统所依赖的计算规模,在几年前是无法想象的。训练一个前沿的AI算法可能需要耗时数月,成本高达数千万甚至数亿美元。这种巨大的算力需求,催生了专门为此优化的计算机硬件——AI芯片。 第二章:算力经济学——AI算法驱动的架构革新AI芯片的崛起,是计算需求与硬件供给之间矛盾运动的必然结果。深度神经网络的计算需求,与传统CPU的设计理念背道而驰。 文件最终得出的结论是清晰而有力的:先进的AI芯片是实现大规模AI的必要前提,而这种芯片的生产能力高度集中。在AI时代,算力(Compute)不仅是技术问题,更是经济问题和安全问题。 对先进算力供应链的控制,在很大程度上等同于对未来AI发展制高点的控制。
这类芯片是高端算力场景的核心支撑,典型应用包括:高性能计算(HPC):如 GPU(图形处理器)、AI 加速芯片(如 NVIDIA H100),通过 10000+ pin 实现内存接口(HBM)与 PCIe 二、大阵列高 pin 数芯片的关键测试项此类芯片的测试需覆盖电气性能、信号质量、可靠性三大维度,具体测试项包括:1. 三、大阵列高 pin 数芯片测试座的核心作用德诺嘉针对高密度、高速度、高可靠性的测试需求,专用芯片测试座需承担四维关键功能:1. ≤1ps),满足 8 颗芯片并行测试需求。 在先进封装技术快速迭代的背景下,德诺嘉大阵列高 pin 数芯片测试座已从单纯的 "连接器工具" 升级为测试系统的核心性能延伸载体,其设计水平直接决定了高端芯片量产良率的控制精度与成本竞争力。
在芯片测试中,芯片测试座(socket)又扮演着怎样的角色?在AI大模型的推动下,高算力芯片的现状和未来趋势又将如何演变?同时,晶圆级芯片的发展提供了怎样的创新思路? 二、芯片测试与芯片测试座(socket)的关联高算力芯片的复杂性和多样化应用决定了其测试环节必须严谨高效。芯片测试座(socket)在芯片测试中起到了关键的连接作用。1. 三、AI大模型对高算力芯片的现状及未来趋势人工智能的迅速崛起为高算力芯片提供了广阔的舞台,特别是AI大模型的运算需求推动了芯片性能的飞速提升。1. 高算力芯片的趋势 高算力芯片的发展趋势是继续提高功耗比性能、增强AI计算专用功能、增加可编程性和灵活性。通过异构计算架构和创新的处理器设计,高算力芯片将更好地满足AI大模型的需求。 国产高算力芯片在技术核心、架构设计、市场应用等方面展现了强劲的发展势头。在AI大模型的推动下,以及在晶圆级芯片技术的引领下,国产高算力芯片将迎来更多的机遇。
概念 AI技术有三大要素:算法、算力、数据。 由于AI技术的应用,对各种硬件设备的算力要求大幅提高,AI芯片应运而生,目前AI芯片发展的重点是针对神经网络等架构实现高速运算的核心硬件,即算力提高阶段。 可能未来AI技术成熟之后,AI芯片可以实现集算法与算力于一体的超脑能力。 华为AI芯片麒麟970与非AI芯片相比,加入嵌入式神经网络处理器(NPU)之后,其功耗与性能得到极大提升。其中,功耗降低了 20%;图形处理性能提升 20%、能效提升 50%。 目前仍然在算力提升阶段。 ---- 参考资料 唐氏二少:http://baijiahao.baidu.com/s?
算力经济下DPU芯片的发展机遇 文章类型 | 技术解析 全文7500字 | 阅读15分钟 部分图片来源于网络 01 算力,已经成为先进生产力 当前承载算力的基础设施是各种规模的的数据中心,从几十个服务器节点的小规模企业级计算中心到数万个节点的巨型数据中心 算力,已不仅仅是一个技术指标,它已经成为了先进生产力的代表。 算力源于芯片,通过基础软件的有效组织,最终释放到终端应用上。 在云端,高性能CPU和GPU是主要的两种算力芯片——也是规模最大,单价最高,应用环境最复杂的芯片。 伴随着这第四次AI浪潮,GPU的全球领导厂商NVIDIA的市值也在2020年8月一举超越了X86 CPU的领导厂商Intel,并一骑绝尘。GPU同时也成为了下一代数据中心里算力芯片的又一个重要角色。 我们也大胆预测,未来数据中心的算力引擎将出现CPU、GPU和DPU并举的情景。DPU不仅仅是网卡芯片,而是全面成为“软件定义硬件”的重点对象。
这是一对矛盾,拉扯着我们的各类算力芯片设计。 谷歌TPU是第一个DSA架构的AI加速芯片,从TPU开始,各类DSA架构的AI芯片如雨后春笋般出现。 实践证明,GPGPU是目前AI算力的主流平台,因为GPGPU的灵活可编程能力和AI算法的需求是相对匹配的。 算力,是数字经济时代的核心生产力,算力对推动科技进步、促进行业数字化转型以及支撑经济社会发展发挥着重要的作用。 其次,宏观算力,需要算力芯片大规模部署。芯片想要大规模部署,就要能够灵活地适应更多的场景落地,满足各个用户差异化的需求,满足上层应用经常性的、持续数年的业务逻辑迭代。 也就是说,芯片的特性方面,需要支持更多的通用灵活可编程能力。 再次,宏观算力需要充分利用。
文丨唐志敏深圳理工大学算力微电子学院院长、象帝先董事长编辑丨苏扬过去40年,处理器芯片呈现出“否定之否定”的螺旋式发展道路:自研-放弃自研-自研。 那么,接下来的五年、十年,对于国产“算力芯片”来说,突破口在哪里?我们认为是指令系统结构(指令集架构)的统一。 所以,在文章开头,我们就呼吁,未来五年、十年,中国的算力芯片应该统一指令集架构。 目前业界更倾向于基于这种结构——增加处理器核的数量,来提升性能,比如代表算力的xPU芯片,就是典型的众核(Many Core)结构。 03 统一指令集:中国算力芯片规模化的关键路径近年来,系统和平台厂商又开始研发计算芯片了:美国有苹果公司、谷歌、亚马逊、微软,中国公司也很多。
看看今年芯片行业的热度,OPPO 又添了一把火。 OPPO 出自研芯片了,还是一款手机 AI 芯片,采用台积电 6nm 制程。 OPPO 提出的马里亚纳 MariSilicon X 则面向手机端的计算影像,其集成了完全自研的 MariNeuro AI 计算单元,提供超高算力,业界领先的能效比,面向 OPPO 自研 AI 算法,实现了最高效的计算加速和功耗优化 首先是 OPPO 完全自研的 AI 计算单元 MariNeuro,它是一款以场景定义的芯片计算架构,能够实现很高的 AI 能效。 相对于通用性更强的 NPU,OPPO 的 DSA 专注于解决芯片的影像能力,因此可以达到 18TOPS(INT8)算力。 计算摄影通常会处理 YUV 域内容,因为所需算力更小。在马里亚纳 X 的加持下,AI 算法实时进行无损的 RAW 域处理,让计算处理前置,提升了画面细节。
然而,在AI技术如此迅猛发展的今天,我们不禁要问:究竟是算力还是存储能力,是推动AI技术飞速发展的关键核心呢?算力算力,即计算能力,是指在进行数学运算、逻辑运算以及数据处理等操作时所具备的计算效能。 在云计算环境下,面对海量的数据库,需要强大的算力来高效执行诸如数据挖掘、机器学习模型训练等复杂任务,这涉及到大规模矩阵运算、深度神经网络的前向传播与反向传播计算等,对算力的要求极高。 在边缘物联网场景中,众多设备产生的实时数据需要即时处理,这就要求算力能够在有限的资源(如低功耗芯片、小型传感器等)条件下,快速且精准地进行数据处理、分析以及决策。 总的来说至此,我们能够清楚地认识到,存力与算力对于AI技术的发展而言,有着同等的重要意义。若缺乏算力,AI就会失去从海量数据里迅速挖掘有效信息的能力,这就好比轮船没有了驱动自身向前航行的螺旋桨一样。 总的来说,AI技术的快速发展就像鸟儿飞翔需要一双有力的翅膀一样,绝对离不开存力和算力这两者如同双翼般的支撑。这就如同行人在进行长途跋涉时,必须要依靠双脚的力量一样,缺一不可。
这历时多年的武器,将往视频行业投下一枚怎样的石头,又怎样协助下游客户落地更具竞争力的产品? 直奔落地的一整套「芯片+AI算力+AI开发平台」解决方案 ? 二者搭配,呈现在行业客户面前的就是一整套完整的‘芯片+AI算力+AI开发平台’的解决方案,使得应用者非常容易落地。” 刘远强调,“在这之前,我们经过了T01/T02/T31等几代量产芯片的验证,积累了大量宝贵经验,到T40这里,AIE+Magik已经十分成熟”。 AIE—有效突破端侧AI的算力瓶颈 ? 0.05W/T级别 “与云上的AI芯片加速不同,在端侧芯片上,4T算力曾经是天花板,这并不是因为硬件无法将算力继续提高,而是因为端侧产品在算力以外有太多的制约因素。” 基于T40打造的视觉产品,能做到4T/8T算力,能耗比最低达到0.05W/T级别,外围BOM很简单,芯片售价做到几个美金。
在今年的世界人工智能大会上,燧原科技在其主办的 “算尽其用 ·AI 算力中心新实践” 云端 AI 算力产业论坛暨 2022 年燧原科技新产品发布会上,邀请了来自产、学、研的专家和业界领袖,共同探讨算力中心建设的新实践 国产 AI 芯片厂商如何以实践出新招? 自 2018 年成立至今,仅四年的时间,燧原科技已推出了基于邃思 2.0 芯片的第二代云端 AI 训练产品 “云燧 T20/T21” 和基于邃思 2.5 芯片打造的 AI 推理产品”云燧 i20”,以及配套的 二代芯片项目落地,率先积累一线实践经验:在智慧城市方面,邃思第二代芯片可以助力国产 AI 算力中心建设,进行高效部署,通过算力协同发挥算力最大效益,并开放生态,提高 AI 算力利用率。 想了解更多 AI 算力中心新实践信息,敬请关注 9 月 3 日(周六)举办的燧原科技 “算尽其用 ·AI 算力中心新实践” 云端 AI 算力产业论坛暨 2022 年燧原科技新产品发布会。
ORIN 被认为是一款「系统级芯片」,包含 170 亿个晶体管,这款产品或许将为英伟达在 AI 算力上重新占据领先位置。 ? 这款芯片提供的算力可以达到 200TOPS,是此前英伟达自家芯片 Drive Xaiver 的 7 倍,也超过了特斯拉今年推出的自动驾驶芯片 Autopilot Hardware 3.0(144TOPS 据介绍,英伟达的 GPU 技术为腾讯游戏的 START 云游戏服务赋力,该服务已从今年初开始进入测试阶段。START 使游戏玩家可以随时随地,即使是在配置不足的设备上也能玩 AAA 游戏。 GPU 不仅是软件开发者训练人工智能模型的重要工具,早已在各大科技公司成为了 AI 背后的算力来源。在 GTC 上,黄仁勋介绍了两家国内科技巨头百度和阿里巴巴对英伟达最新 GPU 的应用案例。 在最近两年里我们让 AI 的算力提升了四倍,仅仅依靠制程提升这是不可能做到的。在 GPU 的世界里,性能提升的方式和 CPU 思路不同。
AI集群依赖复杂的网络基础设施处理处理器、内存及存储间的海量数据流。Meta的研究表明,数据中心内约40%的时间消耗在网络传输环节,凸显网络性能对AI效率的直接影响。 当前解决方案聚焦三方面突破:连接协议升级、芯片架构革新及封装技术创新。 首先从连接前端网络的CPU说起,这部分仍然使用以太网。目前是112G,而224G则将是未来的标准。 同时,小芯片技术正重塑AI硬件生态。与传统单片SoC相比,模块化设计可将系统分解为计算、I/O、存储等专用单元,通过UCIe等协议实现异构集成。 该模式使芯片良率提升30%-50%,开发周期缩短40%,同时通过工艺组合优化降低系统功耗25%-50%。 未来三年,AI硬件将呈现三大趋势:UCIe生态完成跨厂商互操作性认证、光电共封装技术降低SerDes功耗、存算一体芯粒突破冯·诺依曼瓶颈。
研究人员称,这种「芯片」可以达到 GPU 280 倍的能源效率,并在同样面积上实现 100 倍的算力。该研究的论文已经发表在上周出版的 Nature 期刊上。 但更重要的是,他们预测最终构建出的芯片可以达到 GPU 280 倍的能源效率,并在同样平方毫米面积上实现 100 倍的算力。 值得注意的是,研究人员目前还没有构建出完整的芯片。 在使用 PCM 单元进行测试时,其他硬件组件是由计算机模拟的。Ambrogio 表示研究人员希望在花费大量精力构建完整芯片之前检查方案的可行性。 这种专用芯片可以让哪些设想成为可能? Ambrogio 表示主要有两种方向的应用:将 AI 引入个人设备,以及提高数据中心的运行效率。 在个人设备中直接实现人工智能可以免去将数据传向云端造成的隐私性顾虑,但 Ambrogio 认为其更具吸引力的优势在于创造个性化的 AI。
面对数据呈指数级增长的趋势,很多行业都开始大规模利用HPC和AI,希望借此提升企业的预见性和决策力,在激烈的市场竞争中脱颖而出。 需求端的红火固然可喜,但有效算力的供给难免出现结构性短缺的问题。算力对应的产品、服务和解决方案,与客户需求之间时常存在错配现象。人们期待HPC和AI的供给侧,也能来一场轰轰烈烈的变革。 算力发生供给侧变革 身处HPC和AI的风口浪尖,很多设备商和服务商已经感受到了算力供给的痛点,积极进行相关的战略布局和产品研发。 算力改变世界 算力到底是如何改变世界的呢?再回到本文开头提到的零售业——这是人们日常生活中最容易触摸到的行业,其演变轨迹处处闪现着算力的魔力。 强大的算力正在改变零售业,改造所有传统行业,最终也将创建一个全新的世界。
6月11日晚间,小鹏汽车正式发布了全新SUV车型G7,该车型被定位为“全球首款L3级算力的AI汽车”,拥有Max和Ultra两个版本,其中Max版本标配两颗Orin-X芯片,Ultra版本则配备三颗小鹏自研的图灵 AI芯片。 小鹏G7 Ultra最大的亮点在于其全球首发搭载的三颗自研图灵AI芯片,集成了40核处理器,两个神经网络处理单元(NPU),并采用了针对神经网络优化的特定领域架构,总算力达到2200Tops,这一数据直接将行业旗舰的算力标准提升了 相比之下,目前行业主流智能驾驶系统的算力水平约在80-700Tops之间。 不过,何小鹏也表示,尽管算力达到了L3级别,但小鹏G7并非L3级汽车,成为L3级汽车,除了L3级算力和AI软件外,还需L3级硬件冗余和法律法规认证。