(CUDA/ROCm/CANN 指令集不兼容)、协议差异性(PCIe Gen5/CCIX/RDMA 交互格式冲突)、算力错配性(不同精度算力供给与负载需求不匹配),存在三大核心痛点: 协议适配难:跨域混训协议协商失败率 二、解决方案 2.1 核心技术能力 跨域混训适配:基于 UDMA(用户态直接内存访问)架构封装通信协议,统一 CCIX/PCIe Gen5/RDMA 交互接口,实测跨域混训协议适配成功率从行业平均 50% 2.3 标准技术架构图 2.4 跨域混训核心技术流程 以千亿参数大模型跨域混训为例,全链路流程为: 初始化:完成跨域网络、存储部署与芯片驱动适配,生成统一指令集中间表示; 模型拆分:按 “8 路数据并行 20 + 落地企业验证,其算力利用率提升≥30%,跨域混训故障率下降 80% 以上。 五、未来发展方向畅想 目前 DeepLink 仍存在长尾芯片适配率不足 50%、高并发场景故障率约 7%、跨域功耗较同域高 18% 等问题。
多芯异构纳管挑战: 随着国产GPU全面替代英伟达(2026-2028年预期),金融机构面临多品牌、多种类国产卡的统一调度难题,难以实现异构混训与混推。 大厂云服务(如华为云、阿里云、百度云)存在芯片绑定、互不兼容的生态孤岛问题。 构建全栈异构智算平台:以KV Cache为核心的系统级推理调度 针对金融行业软硬件生态割裂与计算效能低下的痛点,浪潮联合腾讯推出金融行业异构算力服务全栈方案,通过软硬件深度耦合提升整体推理效率: 自研高性能推理框架与算力动态伸缩 通过提升机内光模块与机间光纤互联高带宽域(HBD),脱离PCIe限制,卡间互联向900GB/s对齐,解决大模型通信与存储IO压力。 通过深度耦合底层国产GPU芯片与上层框架,保障国产算力性能达到与海外算力持平(SOTA)的状态。
,让软件代码能够在任何芯片和硬件上运行,增强开发者使用不同GPU硬件的信心。 这是一个积极的信号,它反映了当前人工智能领域中的一个重要趋势:即对跨平台兼容性和标准化的迫切需求。 前者为开发者提供一套针对不同硬件的统一编程模型及范式标准;后者将定义一套异构硬件的统一虚拟指令集,对异构高性能加速硬件的运算、处理等基础功能进行一致化约束,实现同一应用程序经过一次编译即可在不同异构硬件上运行和迁移 落地与兼容性 标准成功立项参考了腾讯海量的实战经验,腾讯大数据自研ABO异构编译器对此探索了完全开放的问题域, 比如,对于典型的数据分析、推荐等神经网络加速场景,ABO在自研芯片落地、GPU加速分析和CPU 业务实践 在腾讯广告推荐场景中,支持联盟粗排等业务异构芯片生产上线,性能超过了厂商原生方案的30%-140%,精排业务也在上线进行中; 在大模型推理场景中,ABO异构编译器支持多种混元子模型,能够平滑运行在多异构芯片上
腾讯混元大模型迎来再次开源! 刚刚,腾讯混元又开源了两个重磅模型:最新的MoE模型「混元Large」以及混元3D生成大模型「Hunyuan3D-1.0」正式开源。 这次开源的腾讯混元Large模型,与腾讯混元Pro、腾讯混元Turbo等不同尺寸的模型源于同一技术体系,已经在腾讯内部业务经过验证和广泛使用。 在精调训练阶段,腾讯云TI平台内置了腾讯混元模型及其他主流开源模型,用户可以一键发起精调任务。通过硬件容错、容器调度、任务断点续训的三层保障机制,平台确保大规模训练任务的稳定性。 全面适配国产算力,满足异构计算需求 目前,腾讯云TI平台已完成对国产计算卡的适配,有效满足了相关企业对安全性和独立性的高标准要求。 最新支持异构算力的统一纳管,实现了ARM架构和X86架构芯片服务器算力资源可通过一个控制台进行统一纳管,在当下算力资源紧张的情况下,帮助客户最大限度整合现有资源。
腾讯混元大模型迎来再次开源! 刚刚,腾讯混元又开源了两个重磅模型:最新的MoE模型「混元Large」以及混元3D生成大模型「Hunyuan3D-1.0」正式开源。 这次开源的腾讯混元Large模型,与腾讯混元Pro、腾讯混元Turbo等不同尺寸的模型源于同一技术体系,已经在腾讯内部业务经过验证和广泛使用。 在精调训练阶段,腾讯云TI平台内置了腾讯混元模型及其他主流开源模型,用户可以一键发起精调任务。通过硬件容错、容器调度、任务断点续训的三层保障机制,平台确保大规模训练任务的稳定性。 全面适配国产算力,满足异构计算需求 目前,腾讯云TI平台已完成对国产计算卡的适配,有效满足了相关企业对安全性和独立性的高标准要求。 最新支持异构算力的统一纳管,实现了ARM架构和X86架构芯片服务器算力资源可通过一个控制台进行统一纳管,在当下算力资源紧张的情况下,帮助客户最大限度整合现有资源。
在实际应用中,TCS 异构算力管理平台展现出以下四大关键特性: 异构算力统一管理 TCS 通过异构算力统一管理解决方案,实现了对多种类型加速芯片(如CPU、GPU、NPU 等)的统一接入和集中管理。 针对各家加速芯片厂商提供的部署方式各异的问题,TCS 基于 TAD(Tencent Application Definition)云原生应用声明式部署规范,提供了标准化的接入接口与适配框架,并实现了快速集成与高效部署 异构算力灵活调度 TCS 的异构算力灵活调度方案能够根据应用需求动态分配算力资源,显著提升资源利用率和计算性能。 特别值得一提的是 TCS 创新的 GPU 在离线混部调度能力,通过任务的优先级实现抢占调度功能,支撑训推一体业务部署:对高优任务(如在线推理)采用平均分配确保稳定性,对低优任务(如离线训练)则采用填满策略提高利用率 通过异构算力统一管理、多集群扩展、异构算力灵活调度、拓扑感知调度、qGPU 内核态共享及离在线混部、FinOps 成本中心、GPU 故障检测与自愈、智能运维等核心能力,提供一站式的异构算力资源整合、调度
一、产品定位与核心亮点 技术定义:腾讯混元大模型信贷助手是由腾讯金融云解决方案中心(负责人:林伟城,CSIG云与智慧产业事业群)研发的,基于混元大模型及专属模型能力(混元多模态智构解析、混元生成式推理提取 ,避免数据丢失,跨页连贯性提升90%以上。 数据处理:覆盖7000+数据要素、10+模板、20+板块,支持多源异构材料(图片/Word/PDF/Excel/音视频等)。 产品优势 专属模型能力: 混元多模态智构解析:物理分页方案,识别分页类型(封面/目录/正文/附录)及页内元素(标题/正文/表格/公式/图片),动态调用通用文本/表格/图像能力,跨页表格重组、BERT 混元生成式推理提取:约束性指令框架、执行指令跟随框架、金融行业场景数据,持续提升(新场景加入、指令/示例引导、bad/goodcase标注重训)。
1.3 单芯片实现通常5颗以上芯片的多域计算 NVIDIA Thor提供2000TFLOPS的算力(相比较Atlan提供的2000TOPS)。 自动驾驶汽车,通常需要支持五个主要的功能域,包括动力域、车身域、自动驾驶域、底盘域、信息娱乐域。 大芯片的发展趋势就是:功能融合的、超异构计算架构的单芯片MSoC。 上图为基于CPU+GPU的异构计算节点的天河1A超级计算机架构图。 E级的天河三依然是异构计算架构。 这就需要考虑计算的跨云网边端。 异质的引擎架构越来越多,计算资源池化的难度也越来越高。在超异构计算时代,要想把异质的资源池化,计算需要做到: 维度一:跨同类型处理器架构。 如软件可以跨x86、ARM和RISC-v CPU运行。 维度二:跨不同类型处理器架构。软件需要跨CPU、GPU、FPGA和DSA等处理器运行。 维度三:跨不同的芯片平台。
面对新一轮的GPU硬件禁运与CUDA生态壁垒,我们不仅需要继承超算时代的系统工程经验,更需要在AI芯片架构与异构计算软件栈上寻求新的破局点。 这一阶段,国产芯片厂商如华为(昇腾系列)、海光、寒武纪等迅速崛起。 国产芯片在接入PyTorch、TensorFlow等主流框架时,往往面临以下技术挑战:算子适配成本高:同一个模型,若要迁移到不同国产芯片,需要针对不同硬件指令集重新开发或优化算子。 技术原理:解耦与桥接DeepLink的核心逻辑是在深度学习框架(如PyTorch)与底层硬件芯片之间,构建了一个标准化的适配层。 混合训练的可能性基于DeepLink的抽象层,技术界正在探索更前沿的异构混训模式——即在一个集群中,混合使用不同品牌的国产芯片进行协同训练。
再例如,云计算的基础是虚拟化,而车端的完全集中的自动驾驶芯片,其核心也是通过虚拟化技术实现多域系统的融合。 通常情况下,一个域需要一颗或多颗DCU-SOC芯片;而发展趋势,则是完全集中的超级计算机模式,也即把五个功能域融合到一个超大算力的单芯片解决方案。 2028年,第六代自动驾驶芯片,算力再提升2倍以上,算力突破20000 (20POPS)TOPS。 6 趋势四:体系结构逐步从异构走向超异构 为什么需要异构计算? 合适的做法则是,进一步的从异构走向超异构。 一方面,把硬件分层从异构的两层再细分为超异构的三层: 层次一,DSA层。 服务不仅仅可以在本地部署和交互,也可以跨平台部署和交互。部署和交互:可以跨不同的虚拟环境(VM/容器等),也可以跨本地集群的不同硬件实体,甚至跨云网边端不同地理位置的设备。
“不谋全局者,不足谋一域”。并且,计算不仅仅是AI计算,也不仅仅是某个特定特征或领域的计算,计算是要以一个通用而综合的形态,满足几乎所有场景的需求。 单个硬件集群支持多个软件系统集群的计算,并且软件系统集群交叉混布。 数以万计、百万计甚至更多计算设备的超大规模,完全动态的、非常频繁的软硬件配置变更。 3 算力的融合 目前,算力中心通常包括四个方向: 通用计算(主要基于CPU服务器); 超级计算(基于巨型计算机的高性能计算); 智能计算(基于GPU、AI加速等芯片的异构服务器); 分布式存储(独立的分布式存储体系 芯片实现(微架构):通过一些创新的设计实现,如存算一体、DSA架构设计以及各类新型存储等。 系统架构:比如开放精简的RISC-v,异构计算逐渐走向异构融合计算,以及驾驭复杂计算的软硬件融合等。 跨算力中心、跨不同云运营商、跨云边端融合的计算。
腾讯混元大模型信贷助手解决方案获得了大赛颁发的“探索实践奖”。腾讯云三大方案分别在金融风控、算力基建及大模型应用三个关键领域展现突出优势,获专家团高度认可。 TCS 异构算力管理平台架构总览在实际应用中,TCS 异构算力管理平台展现出以下四大关键特性:异构算力统一管理TCS 通过异构算力统一管理解决方案,实现了对多种类型加速芯片(如CPU、GPU、NPU等) 针对各家加速芯片厂商提供的部署方式各异的问题,腾讯专有云PaaS平台TCS基于TAD(Tencent Application Definition)云原生应用声明式部署规范,提供了标准化的接入接口与适配框架 特别值得一提的是 TCS 创新的GPU在离线混部调度能力,通过任务的优先级实现抢占调度功能,支撑训推一体业务部署:对高优任务(如在线推理)采用平均分配确保稳定性,对低优任务(如离线训练)则采用填满策略提高利用率 通过异构算力统一管理、多集群扩展、异构算力灵活调度、拓扑感知调度、qGPU内核态共享及离在线混部、FinOps成本中心、GPU故障检测与自愈、智能运维等核心能力,提供一站式的异构算力资源整合、调度、运营服务
底层算力短缺与实训环境割裂:上海大学教授、博导,上海市第一中学科学副校长高洪皓提出,在高校人工智能基础类课程落地中,面临零基础学生环境配置复杂、学校GPU算力与存储严重不足、实训平台不便用且资源管理极难等基建瓶颈 实训平台并发承载力验证:上海大学依托云上AI实践平台,成功支撑全校经管类446名学生的全流程项目实践,编程实践能力与学习效率实现正向反馈(数据来源:上海大学)。 深耕多元化教育场景的实战案例 技术的规模化应用建立在解决实际业务痛点的基础之上,以下客户展现了跨学段、跨场景的深度融合路径: 上海海事大学(高等教育创新):发展规划处处长刘涛教授分享,学校结合腾讯混元与开源模型 赶考小状元(智能终端赋能):推出集成AI能力的智能员工手机终端,固化销售转化流程,实现公域拓客、私域培育到客户资产保护的全链路覆盖。 多模态大模型矩阵集成:提供腾讯混元大模型与全维度开源模型生态支撑,并以腾讯云ASR大模型为核心,在多场景音频识别中输出高准确率与高性价比的底层识别能力。
同时不应该忽略的,还有百舸4.0的多芯混训、多芯适配能力。能够把同一厂商不同代际芯片、不同厂商的芯片统一管理,混布成一个集群高效完成模型的训练和推理任务。 可以找到的一个实战案例是:春节假期结束时,有近20家芯片企业在忙着适配DeepSeek,在百舸4.0的赋能下,百度的昆仑芯是国内率先支持单机部署满血版DeepSeekR1的芯片,单机8卡配置便可实现2437tokens 百度是国内为数不多同时深耕芯片、框架、模型、应用的企业,能够针对大模型的训推、部署和调优等进行全流程优化。 在百度智能云的示范下,云厂商竞赛的升维已然是可以预见的结果,倒逼全行业提升工程能力,从底层芯片、智算平台、大模型等多个维度进行布局,推进全栈创新与快速迭代。 一方面,大模型的Scaling Law仍在继续,大模型竞赛本质依然是算力竞赛,能否解决跨地域部署、多芯混训以及集群稳定性等问题,关系着是否能满足源源不断的算力需求,是否有参与大模型竞赛的资格。
报告目录 数字科技星图 计算跃迁 个体增强 范式革新 2025十大技术发展趋势研判 趋势1:多样 – 高性能异构计算成为主流 趋势2:普惠 – 基础大模型可信可靠可用 趋势3 :创新 – AaaS催化AI原生新特征 趋势4:突破 – 人类增强技术突破生理局限 趋势5:泛在 – 垂直领域大模型成为主战场 趋势6:融合 – MEI跨域融合创新 趋势7:懂你 – 情感计算催生共情智能 核心分析模型采用“数字科技星图”框架(计算跃迁、个体增强、范式革新)及“MEI跨域融合”(物质、能量、信息)。 解决方案:通过十万级GPU集群算力、混元多模态大模型(TurboS/T1/3D世界模型)、AaaS智能体平台实现动态资源调度与跨域融合,推动运营商从“连接服务”向“AI生态运营”转型。 为什么选择腾讯云 腾讯云凭借混元大模型技术体系入选全球AI领导者阵营,其智能体平台支持多智能体协同与伦理合规框架,为运营商提供端到端AI Infra解决方案。
企业在评估 AI Infra 时,不再只关注芯片种类或资源规模,而是从性能优化、成本管控、运营效率、安全保障、应用落地等角度,全方面衡量其能力。 IDC 总结出了 AI Infra 应具备的六个关键模块: 异构算力调度能力:针对当前算力多元化的发展趋势,AI Infra 通过算力调度技术和平台,实现对异构算力芯片的深度适配和统一纳管,能够根据不同业务场景进行高效的算力选型 训推一体化和加速能力:AI 训推平台针对 AI 模型训练 / 微调和推理框架的支撑能力,以及对于 AI 训推流程的加速能力,成为 AI Infra 在 AI 模型开发层面的核心技术平台。 同时,医疗和金融等行业因数据不能出域,对推理环境的安全性、部署复杂度和可信度提出更高要求。 过去的差异主要集中在芯片供给、训练性能和算力成本上;未来真正拉开距离的,将是平台能否让企业以更低成本、更高自由度和更完善的生态部署 AI。
同时不应该忽略的,还有百舸4.0的多芯混训、多芯适配能力。能够把同一厂商不同代际芯片、不同厂商的芯片统一管理,混布成一个集群高效完成模型的训练和推理任务。 可以找到的一个实战案例是:春节假期结束时,有近20家芯片企业在忙着适配DeepSeek,在百舸4.0的赋能下,百度的昆仑芯是国内率先支持单机部署满血版DeepSeekR1的芯片,单机8卡配置便可实现2437tokens 百度是国内为数不多同时深耕芯片、框架、模型、应用的企业,能够针对大模型的训推、部署和调优等进行全流程优化。 在百度智能云的示范下,云厂商竞赛的升维已然是可以预见的结果,倒逼全行业提升工程能力,从底层芯片、智算平台、大模型等多个维度进行布局,推进全栈创新与快速迭代。 一方面,大模型的Scaling Law仍在继续,大模型竞赛本质依然是算力竞赛,能否解决跨地域部署、多芯混训以及集群稳定性等问题,关系着是否能满足源源不断的算力需求,是否有参与大模型竞赛的资格。
在算力网络架构层面,我国已构建起“枢纽-集群-节点”三级架构,通过8个国家算力枢纽、10个数据中心集群的科学布局,形成“东算西存、东算西训”的资源调配格局。 跨区域层面,京津冀、长三角等核心区域与西部枢纽间的骨干网络时延已压缩至20毫秒以内,形成“5毫秒区域圈、20毫秒全国圈”的时延体系。智能调度系统则让分散的算力资源“活”起来。 通过融合强化学习算法、区块链可信计量等技术,调度平台可实现跨地域、异构算力的动态匹配。 算力网的异构融合特性(支持CPU、GPU、NPU等多种芯片架构),要求开发者掌握跨架构算力调度、模型优化等技术。适配算力网的轻量化模型、边缘计算算法等方向,将成为开发者的技术深耕重点。 开发者可依托算力网开放平台,参与算力服务接口标准化建设、跨域算力调度算法优化等工作,共建算力生态。
与具有相对规则组件和布线的片上设计不同,异构集成的物理设计问题通常需要处理任意的组件形状、不同的金属线宽以及组件、金属线和焊盘之间的不同间距要求,同时考虑多个跨物理域的因素,如系统级、物理、电气、机械、 在设计这样的异构集成的综合物理设计流程时,需要考虑多物理域,如系统、物理、电气、热、机械和光学设计。与传统物理设计(如布局和布线)不同,电光协同设计需要考虑时序、电气、热和机械问题。 ◆ 跨物理领域考虑 现代异构集成在多个物理领域带来了挑战,如系统、物理、电气、热、机械和光学设计。图 14 列出了每个领域的一些关键挑战。 必须为物理领域重新发明用于多个芯片的不同技术的 3D 分区、平面规划、布局、布线和布局后优化工具。我们还需要处理芯片 - 封装 - 板协同设计和跨域时序分析/优化问题。 ◆ 芯片 - 封装 - 板协同设计/建模/仿真 迫切需要一个灵活、稳健且垂直集成的芯片 - 封装 - 板协同设计流程,该流程要考虑跨芯片和跨物理域的多目标和各种约束,以促进先进的异构集成。
,涵盖编译器、性能分析工具、格式转换组件等,可实现多语言支持、算子自动优化与跨框架平滑适配。 据介绍,它覆盖了 AI 芯片工作流程的底层驱动、用户态接口、编译器、算子适配、训练框架、推理框架、行业场景优化等全链路能力。 在芯片行业,硬件决定算力基础,而软件栈则决定了算力能否被有效释放。 MACA 套件中开发效率引擎,其旨在降低异构开发门槛。 推理优化则适配 ONNX Runtime、vLLM、SGLang 等框架,采用 INT8 量化、KVCache 跨卡管理提升长序列处理效率。 此种能力的背后,是沐曦构建的大模型训推一体化能力。