剖析大模型时代的算力与运维瓶颈 随着普惠AI浪潮的到来与大模型走向规模化应用,企业在AI基础设施(AI Infra)建设上面临显著的战略困境与业务瓶颈。 算力孤岛与改造成本: 外部业务难以直接获取大厂内部的优化实践,且底层框架的替换往往具有极强的代码侵入性,导致降本增效难以落地。 构建“算存网数安”一体化的智算生态 为解决上述痛点,腾讯云通过“一云多芯、软硬协同”的架构,提供全面覆盖算力、存储、网络、数据与安全的高性能智算底座: 计算编排与基础架构 (HCC): 采用自研星星海AI 通过SDHN实现网络故障无感知的硬件故障隔离,支持qGPU对单卡进行5%超细粒度算力切分隔离。 此外,腾讯云计算(北京)有限责任公司也是全国智能计算标准化工作组算力互联互通研究组的成员单位。
直面AI算力瓶颈与系统级“木桶效应”限制 在生成式AI与大模型快速发展的产业情景下,企业普遍面临海量数据处理与极速推理的战略需求。 然而,单纯依赖单点硬件升级已无法满足复杂的业务诉求,企业在实际部署中受制于计算、存储、网络的系统性“木桶效应”,导致算力瓶颈凸显,存在训练中断风险高、底层资源利用率低、异构算力兼容困难等切实痛点,严重制约了 打造算存网数一体的高性能智算软硬协同方案 为破解上述产业困境,腾讯云推出算存网数一体的云原生智算解决方案,通过“一云多芯、软硬协同”的模式,提供涵盖公有云、专有云(CDZ/CDC/TCE/TCS)在内的多形态灵活部署底座 高性能算力集群(HCC): 结合计算节点(CVM/CBM),为大规模模型提供高可用算力支撑。 智能高性能网络(IHN): 构建高带宽RDMA网络,打通节点间数据传输大动脉。 目前,90%的国内头部大模型厂商(如美团、快手、知乎、小红书、蔚来等)首选该智算底座。 (数据来源:腾讯云智算解决方案官方发布材料)
放在现实科技文明中,这个超能力有另一个名字——算力。 物联网、5G网络、IPv6的发展,为实时性要求高、带宽需求量大的企业业务带来更多可能性,同时也对底层算力和安全保障提出了更高要求。 在这个背景下,企业算力所面临的挑战尤其突出。对于对计算性能有着高要求的业务,如果底层平台算力跟不上,就如同让F1赛车手去开公交车,能力难以施展,业务发展也会碍手碍脚。 安全算力VS传统算力,以全球分布式协作计算为例 与传统算力平台不同,安全算力平台支撑着更复杂、更多维的海量计算,全球分布式协作计算便是安全算力最常见的场景之一。 1.png 依托新基建安全算力,成功护航广交会、世界智能大会 有算力,才能突破想象力。 然而,这还远不是海量数据时代的巅峰,新基建井喷爆发将助推更多新兴业态到来,算力愈发成为新基建数字底座的基础驱动力,这里面将会是无穷的想象空间和应用价值。
计算资源浪费与时效滞后: 业务训练模型参数规模不一,大规模组网存在算力冗余;数据合规(如T+1小时内完成脱敏处理)要求极高,传统处理流水线导致GPU等待时间过长。 部署端到端云智算与数据存储引擎 为解决算力与存储解耦带来的效率损耗,腾讯云构建了覆盖“数据采集、预处理、算法训练、仿真测试、OTA升级”五大阶段的智算服务矩阵: 全栈自研vRDMA网络: 无需额外网卡硬件成本 释放算力潜能与量化研发降本指标 基于上述技术架构的落地,企业研发效能与运维成本(Ops Cost)得到具体量化改善,核心业务指标显著提升: 算力成本大幅削减: 云函数SCF按毫秒级精确计费,最高节省超70% 的数据预处理成本;vRDMA多机互联技术在实现集群算力近无损扩展(扩展比达98%)的同时,节省20%的业务训练成本。 落地车企数据合规与海量模型训练实战 通过构建定制化解决方案,腾讯云智算底座已在多家头部车企的核心业务流中完成验证: 实战案例一:某头部车企百万级车辆数据合规脱敏 业务冲突: 应对649.5Gbps的数据峰值吞吐
、能源、政务等)的数字化进程正面临从“工具辅助”向“核心生产力”跨越的战略拐点。 在国家宏观政策(如《算力基础设施高质量发展行动计划》)驱动下,企业迫切需要解决以下核心瓶颈: 生产过程黑盒化: 传统的设备状态、能耗、环保监测依赖人工经验,缺乏全局数据图谱,导致运维成本居高不下且决策滞后 构建全栈AI关键技术图谱:从底层算力到场景应用的解决方案 为突破上述瓶颈,腾讯云构建了从底层算力到行业应用的“AI+”全栈技术图谱,推动产业在生产、体验、安全与模式四个维度实现进化: 夯实自研算力与基础框架 : 部署自研紫霄AI芯片与自研星脉高性能计算网络架构,提供底层算力支撑;整合TI-ACC加速组件与TNN开源推理框架。 沉淀硬核科技底座:自研生态与技术壁垒构建 腾讯云能够支持泛互联网、运营商、零售、制造等千行百业实现AI+大模型加速落地,其底层技术确定性源于深厚的研发积淀: 顶级算法与科研支撑: 核心算法由腾讯三大实验室提供直接支持
在三位专家看来,数字经济已经成为驱动我国经济增长的核心关键力量,而“东数西算”工程和算力网络建设则是支撑数字经济发展的重要底座。 同时,这也是为了破解算力当前面临的一个难题——单点已经出现很多瓶颈,需要通过集群式、以网代算的方式来发展算力,从而将算力水平推到一个更高的高度。 AI助力:构建算力网络“大脑” 构筑新型的算力网络基础设施是推动数字经济发展的重要举措,但算力网络是一个复杂巨系统工程,包括算力供给、算力管理、算力服务等多个方面。 “3”是指从上到下的三层,底层是算网融合基础底座层,中间是以算网大脑为核心的智能编排管理层,最上面是提供业务能力、业务开放和最终业务形态的运营服务层。 “中国移动基于3+2体系架构发布了《算力网络技术白皮书》,提出了十大方向的32个核心技术,如算力原生、算网一体、算力路由等,目前正在开展技术攻关,协同产业界一起推动原创技术发展,共同构筑起算力网络大厦。
文章目录 人工智能里的算力是什么? 在普通电脑中,CPU就提供了算力帮助电脑快速运行。玩游戏的时候需要显卡提供算力,帮助电脑快速处理图形。 而在 人工智能中,需要有类似CPU和GPU的硬件来提供算力,帮助算法快速运算出结果。 之前在算法里讲过,在制造木桌的过程中,工厂的流水线就是算法。 在那个例子中,工厂中的机器就像算力,机器越好越先进,制造的过程就越快。 ? 算力越大,速度越快 维基百科版本 Techpedia版本 算力是使用计算机技术完成给定目标导向任务的过程。 算力可以包括软件和硬件系统的设计和开发,用于广泛的目的 – 通常构建,处理和管理任何类型的信息 – 以帮助追求科学研究,制作智能系统,以及创建和使用不同的媒体娱乐和交流。 查看详情 维基百科版本 算力是使用计算机的任何活动。它包括开发硬件 和软件,以及使用计算机来管理和处理信息,进行交流和娱乐。算力是现代工业技术的一个至关重要的组成部分。
构建金融级大模型应用的四步闭环 针对金融机构的落地需求,腾讯云提出了从底层算力到上层应用的完整建设路径,强调标准化与定制化结合。 1. 算力建设:提升训练与自愈效率 硬件与架构: 提供硬件选型与弹性架构设计。 效率指标: 腾讯云智算支持从机器上架到开始训练仅需5分钟,并具备自动化的故障自愈能力。 2. 智能应用:场景化业务升级 基于算力与模型底座,生成式AI应用覆盖智能问答、知识管理2.0及办公协同(腾讯会议、文档、企业微信等)。 技术底座与生态支撑 选择腾讯云金融AI解决方案的核心在于其全栈技术能力与生态整合: 算力稳定性: 腾讯云智算提供分钟级(5分钟)的训练启动能力,保障业务连续性。
也就是说,Agent新范式不仅改变了我们使用AI的方式,正深刻影响整个算力底座的供求逻辑。 02AI原生计算正重塑算力底座因为Agent驱动的新范式,绝不限于推理算力需求的增长数字,已经像一把手术刀切入IT架构的深水区。 做一个判断的话:AI原生算力底座的竞赛,早已从“产品能力”跃迁为“系统能力”,并将进一步演进为“生态能力”。 很长一段时间里,模型与算力底座的适配多为滞后的“被动适配”,周期往往长达数月。现在,模型与算力开始“双向奔赴”。 在软硬协同与生态网络的推动下,产业界不断将算力转化为可落地的生产力,持续涌现出了不少标杆实践。在航空领域,南航依托昇腾打造的国产智算底座,研发出了“天策航空求解器”。
但在AI时代,芯片厂商仅仅提供算力已经不够。因为AI体验能否成立,取决于芯片、系统、模型、工具链、终端厂商和开发者之间的协同。 eNPU并不是为了追求峰值算力,而是为了支持常驻轻载AI模型,以更低功耗完成持续感知。 “算力经过这几年的优化,在手机上去年就已经到100TOPS了,今年可能还会再上升,算力看起来是可以足够满足应用需求。现在需要突破的就是带宽问题和内存大小的问题。” 与手机相比,汽车受电池限制较小,因此座舱平台可以提供更高算力。据介绍,天玑旗舰座舱平台CX-1算力可以达到400TOPS,能够支持更多应用。 但即便算力更强,汽车AI同样面临内存和带宽问题。 可以说,手机和汽车虽然形态不同,但在AI落地过程中遇到的核心工程问题是相似的:算力只是基础,真正决定体验的是系统级效率。
当算力芯片的摩尔定律逐渐逼近物理极限,存力开始从幕后走向台前,成为AI领域下一个关键赛点。 长期以来,伴随企业数字化转型所建设的“烟囱式”AI基础设施各自为战,数据奔流,价值却困于“堰塞湖”。 存力中心作为新型的数据基础设施,正成为AI时代数据流通和融合应用的破题关键。 AI时代的 “数据决定论” AI技术的发展离不开三大要素:数据、算法和算力。 AI时代存储市场的 三座大山 随着AI技术持续突破,构筑更高效、更可靠的AI存力底座成为大势所趋。当前,存储市场正在经历三个全新变化,主要聚焦在效率和成本方面。 构建AI时代新型 “数据粮仓” 与算力聚焦在“算”不同,数据存力聚焦在“数”和“存”,是数据生产要素处理的综合能力体现,肩负着为数字经济各种场景提供源源不断的“生产资料”的使命。 将目光投向更长远,新型AI存储很可能是撬动人工智能时代杠杆的另一个支点,“以存强算”“以数助算”亦是弯道超车的重要落点。当AI产业具备扎实的存力底座,才能登高远眺,看见AI时代最美的风景。
部署全位置算力矩阵与同源同构架构 为消除本地部署与公有云能力之间的鸿沟,腾讯云提供以腾讯云遨驰(分布式云操作系统)为核心的分布式云产品矩阵,实现公有云能力的本地化复制与延展。 该方案通过“位置、形式、规模”的全域覆盖,提供跨平台算力管理与专有合规上云服务: 中心云(大型可用区): 依托云原生分布式云中心(TDCC),实现跨云(云A、云B、IDC)算力统一纳管。 区域/边缘云(中小型可用区): 部署边缘云(TEZ/EdgeOne)与专属可用区(CDZ),满足音视频、游戏、政务等近场算力需求。 系统调度水位: 底层遨驰操作系统实现 1.5+ 亿核的算力调度,服务器操作系统 TencentOS 支撑 千万+ 节点运行,确保极端场景下的系统稳定性。 权威生态认证支持: 88款云产品成功进入工信部信息技术融合创新图谱,累计完成 300+ 测试互认证,为企业提供面向未来的、无缝支持AI应用的数字化底座首选。
行业困境:生成式AI落地面临的鸿沟与算力瓶颈 当前生成式AI技术在B端企业级市场仍处于早期阶段。根据SAS全球研究报告数据,全球仅有 11% 的企业将生成式AI充分实施到常规流程中。 算力成本压力: 以创客贴为代表的数字内容企业,在利用AI进行3D处理和推理时面临高昂的算力成本与效率瓶颈。 构建技术底座:腾讯云AGI全栈能力与生态合作 腾讯云于2024年9月推出《AI驱动业务创新 云夯实业务基础》实践报告,联合腾讯研究院、腾讯会议、腾讯文档及30余家行业企业,提供从基础设施到应用层的全栈解决方案 量化业务指标:算力成本与生产效率提升 通过采用腾讯云的基础设施与AI能力,合作企业在关键业务指标上实现了以下提升: 关键指标 量化结果 实施主体/案例 算力成本 降低 创客贴(利用腾讯云算力优势降低推理与 技术领先性与生态壁垒 选择腾讯云及生态合作伙伴的核心优势在于全链路的技术确定性与行业深耕: 算力底座确定性: 云端高性能算力(弹性算力、云原生、高速互联GPU集群)支持企业从研发到落地的敏捷迭代,解决如创客贴面临的算力成本与速度痛点
随着数字化与智能化进程加快,对于算力的要求也越来越紧迫。算力成为全球技术创新竞争的焦点领域。 根据2022中国算力大会发布的数据显示,算力作为数字经济时代新的生产力正迅速发展。 例如CPU算力,GPU算力,专用芯片产生的算力;又如不同的算力精度,有半精度,单精度,双精度……第一层问题是,这些多样算力之间如何彼此协同融合。 算力网络需要提供的是多样性的开放算力架构体系,实际上是要把整个算力网络作为一台计算机来设计并对外提供服务。 国家作出“东数西算”战略性部署,是因为算力正在从单点产品发展为构成全社会的基础设施,并逐步成为发展数字经济的核心,其关键要素是算力基础设施的网络化。 如今,算力网络正在成为算力新时代的信息基础设施。 算力网络将打通数据“动脉”,实现资源最优配置,“东数西算”必将产生更大势能。 随着数字经济时代的全面开启,算力作为重要“底座”支撑、赋能作用日渐凸显。
金融行业AI应用面临效率与安全双重挑战 当前金融业AI化进程中存在显著资源效率与数据安全瓶颈: 算力资源利用率低下:训练阶段因任务调度不合理,GPU实际有效利用率常低于50%;推理阶段因请求波动大, 固定算力绑定期导致资源闲置严重 通信与存储性能瓶颈:多GPU训练中通信开销占比高达50%,传统以太网利用率仅35-40%,且0.1%丢包率即可导致30-50%算力损失;多模态训练中数据加载耗时占训练链路 数据为非结构化数据,跨模态对齐技术不成熟,向量化检索一致性面临挑战 安全风险突出:涵盖数据泄露、恶意攻击、内容失控及基础设施破坏等多维度威胁(来源:腾讯金融云邓锡文公开演讲材料) 腾讯云全栈式AI数智底座技术架构 腾讯云基于自身超700个应用日均2亿次调用的混元大模型实践,构建算存网数一体解决方案: 算力层:高性能计算集群HCC支持超300小时连续训练,通过qGPU容器共享实现5%超细粒度切分,故障完全隔离 腾讯云客户实践披露) 腾讯云AI基础设施的核心技术优势 规模验证:服务公有云10万+客户及腾讯内部超700个应用(含微信读书、腾讯会议等) 硬件创新:搭载自研3.2T交换机、400G光模块及紫霄NPU芯片,算力虚拟化零损耗
目录算力共享:环形结构的算力分配策略方法签名方法实现注意事项nodes.sort(key=lambda x: (x[1].memory, x[0]), reverse=True)end = round (start + (node[1].memory / total_memory), 5)算力共享:环形结构的算力分配策略这段代码定义了一个名为RingMemoryWeightedPartitioningStrategy
面对如此巨大的算力需求,企业如何在平衡算力与能耗开支的前提下,高效地利用和管理算力资源,是实现降本增效的重要命题。这其中,对算力基础设施和软件平台的精细化运营管理成为破题的关键。 大模型对算力的需求是显而易见的,但更关键的点可能在于能否把算力更高效地挖掘出来。在不同的阶段,企业对于算力需求也不尽相同。 《中国算力发展观察报告》显示,有些算力中心整体算力利用率不足30%,大量的算力资源在沉睡中等待被唤醒,算力供需矛盾凸显。 这种演进使智能算力变得不可或缺,且不再局限于简单的算力叠加或升级,而是在多元重构驱动下实现算力的极致拓展与跃迁。 基于坚实的底座能力,宁畅为客户提供符合需求的“硬装”和“软装”智算服务。从“硬装”层面,算力、存储、网络这类基础设施要标准规范、布局合理、节能低碳,做到对硬件设施的管理省时省钱。
行业算力瓶颈与AI应用挑战 算力供需失衡: AI大模型训练算力需求呈指数级增长,每3.4个月翻一倍(数据来源:1Epoch AI、2IDC、3国家数据局、4Gartner),企业面临算力短缺与成本压力。 基础设施挑战: AI大模型落地需应对算力资源供需、适配与成本优化、易用性与多生态兼容三大核心挑战。 资源利用率低: 在线业务存在明显潮汐现象,夜间容器资源闲置率高达500(相对峰值),导致算力浪费。 构建软硬一体化智算底座 AMD 第五代 EPYC™(Turin)特性: 采用3nm/4nm工艺,最高192核心384线程,支持全AVX512指令集,IPC(每时钟周期指令数)提升17%。 市场认可度: 腾讯云智算底座覆盖全国90%+的大模型客户,实测可用性达99.9%,经历腾讯内部600+业务及混元大模型自身训练的严苛验证。
直击模型落地痛点:规避算力空耗与行业知识断层 当前,大模型从“量变”走向“质变”,但在实际业务落地过程中,企业普遍面临底层算力调度与模型专业性的双重瓶颈。 节点资源碎片化导致调度成功率低,系统缺乏高效的故障隔离、自动容错与断点续训底座能力,极大地推高了企业的运维成本(Ops Cost)与试错成本。 算力资源利用率(ROI)极化:在特定行业数据精调下,仅需10亿参数的行业大模型,即可达到与千亿参数通用大模型相近的特定任务性能,大幅降低企业的算力采购与训练成本。 依托TI平台高稳定性任务调度与故障节点自动隔离能力,实现了单任务连续2~3个月的稳定持续运行,大幅降低了算力闲置率。 全生命周期信创支持:深度适配国产化基础设施,支持鲲鹏、昇腾(NPU)、飞腾、海光等主流信创CPU/AI加速芯片的算力分配与调度,全面兼容腾讯TencentOS、银河麒麟操作系统及TDSQL数据库,并已获得
英國「金融時報」報導,鑒於美國近期祭出制裁來壓制中國電腦運算能力,中國科技企業阿里巴巴和壁仞科技為了避免受制裁,正將各自最先進晶片的設計微調,以降低運算處理速度。 華府10月宣布的制裁措施,禁止任何運算能力超過一定門檻的半導體產品出貨至中國除非得到许可。這打亂了上述中國科技企業的發展計畫。 但中國工程師表示,要判斷哪些晶片產品不受制裁並不簡單,因為華府對於如何計算這個速率沒有清楚規範。 根據研究集團伯恩斯坦(Bernstein)計算,從壁仞官方網站存檔紀錄來看,在美國宣布制裁之前,壁仞首款處理器BR100的規格算出傳輸率是640 GB/s,超過限制門檻;但根據壁仞官網目前發布的BR100