数据及观点来源:腾讯全球数字生态大会 | 城市峰会 讲师信息:罗翀(TCE智算首席架构师) 破解大模型计算与访存的结构性壁垒 当前,大语言模型(LLM)的训练与推理正面临截然不同的硬件资源压榨特征,行业普遍陷入算力与带宽的资源错配困境 落地业务场景的硬件映射表: 大模型推理(>70B):算力与带宽双重高要求,推荐由原H20方案向 海光BW1000B / 紫霄V3 演进。 ,更全面覆盖了LLM训推、自驾训练(BEVFormer等)、开源DiT推理以及DeepSeek推理(包含非PD定长/变长、多P多D场景)等前沿复杂任务。 例如,测试场景直接嵌入了元宝大模型平均输入3.5K / 输出1K的真实生产数据结构,并为搜广推应用部门独立评测并输出了多款国产卡型的真实业务表现。 云原生训推加速引擎集成:内置云原生编排调度(TKE/qGPU)及自研训推加速套件(TACO Train / TACO Infer),支持分布式训练推理加速,并无缝集成TI训推平台与ADP智能体平台,支撑企业一键提升
训推平台是集成大模型训练和推理部署功能的硬件或系统,可基于通用大模型底座,通过行业数据微调、知识注入、规则适配等方式,提升模型适配工业、金融等垂直领域的能力,是面向企业级AI应用落地的一站式工具。 大模型定制的本质是让AI能力贴近业务场景需求,垂域大模型的训练必然要与企业实践紧密结合,本文将从细分产业的视角,从四个典型应用场景论述训推平台如何提升大模型适应特定场景的能力。 训推平台赋能应急与安全防控安全应急领域对大模型的要求包括从警情接收至救援途中全程联动的实时响应,以及资源调配、现场处置的精准实施。 训推平台赋能工业能源生产工业能源场景高度细分,大模型泛化能力有限,分场景定制化训练成为工业能源垂直大模型落地的必经之路,若为每个场景单独分配固定算力,将大幅提升硬件建设成本。 综上所述,训推平台通过模型训练、模型测试、推理优化、监控运维等操作,加速了大模型的场景化定制,帮助用户摆脱了硬件建设短板。
2024年5月,摩尔线程与智谱AI开展了新一轮GPU 大模型适配及性能测试,包括大模型推理以及基于夸娥(KUAE)千卡智算集群的大模型预训练。测试用相关大模型来自智谱AI基座大模型及其开源版本。 智谱AI致力于打造新一代认知智能大模型,专注于做大模型的中国创新。 早在2022年8月,智谱AI开源了GLM-130B模型,2023 年,智谱 AI 推出千亿基座对话模型ChatGLM,开源版本的 ChatGLM-6B 让大模型开发者的本地微调和部署成为可能,在开源社区受到广泛欢迎 通过国产算力适配,智谱AI已支持10余种国产硬件生态,努力推动建设大模型软硬件生态和与国产芯片企业的联合创新与升级。 摩尔线程出色的测试结果对于更好建设中国大模型产品技术生态具有重要意义。 智谱AI硬件适配与测试负责人表示:“摩尔线程夸娥千卡智算集群在计算精度和稳定性等方面的表现令人印象深刻,智谱AI将与包括摩尔线程在内的大模型产业生态合作伙伴携手,共同推动大模型产业生态繁荣发展。”
作者 | 孙玮 中国科学院计算所在建设大模型训练与推理平台过程中,模型规模与数据集数量呈爆发式增长。 大模型训推平台存储需求 我们的平台是面向实验室内部的大模型训练与推理一体化平台,核心功能聚焦于模型、数据集和用户代码的统一管理。 然而,由于平台主要面向大模型存储,模型文件体积庞大,导致该流程效率低下。 一方面,大模型文件数量增多,磁盘占用率持续攀升。由于采用本地磁盘,扩容操作繁琐复杂。另一方面,使用 NFS 需自行管理存储,增加了管理难度。 大文件同步效率低:以往架构中,JuiceFS 从 Git 仓库同步大文件时采用 git 克隆方式,这种方式在处理大模型文件时效率极低,导致同步过程缓慢,影响了整体业务处理效率。
如何建设一个人人都能训大模型的技术氛围,已成为加速大模型业务落地、推动组织创新与发展的关键。 2025 年 4 月,在 InfoQ 举办的 QCon 全球软件开发大会 上,科大讯飞消费者 BG 大数据研发部总监吕昕分享了“如何建设人人都能训的大模型技术氛围”,他从平台基础设施、大模型思维、协作文化 3 个角度,阐述如何建设“人人能用、人人会训”的大模型文化,有效提升组织效能,进而推动业务的持续成长。 大模型效果优化团队的协作与流程 在大模型时代,对研发岗位的要求也发生了变化。核心岗位包括大模型算法工程师和大模型测试工程师。 建设人人能训大模型的基础设施 大模型优化平台的建设 基于我对整个平台架构设计的理解,基本分为三层。最底层是基础设施,公有云可以解决 90%,甚至 100% 的问题。
传统AI教学常陷入“老师讲得深、学生听不懂,模型训练难、实践没法推”的困境——要么只讲算法原理,学生摸不到真实模型;要么训练好的模型没法落地应用,教学和实操严重脱节。 而AI大模型教学实践训推一体化系统,用实打实的技术打通“教学-训练-部署”全链路,让AI教学既懂理论又能实操,成为师生都能用的“硬核教学工具”。 系统内置了经过裁剪优化的基础大模型,支持“小数据微调”——学生不用找海量数据集,用课程里的实验数据(比如文本分类样本、图像识别素材),通过可视化界面调整参数,就能训练出专属模型。 这背后用到了“模型压缩+边缘推理”技术,把训练好的大模型压缩到原有体积的1/10,推理延迟控制在50毫秒内,学生不用等待,就能直观看到自己的训练成果,及时调整参数。 AI大模型教学实践训推一体化系统,用轻量化训练降低实操门槛,用实时推理验证学习成果,用教学联动打通理论与实践。
但是由于显存资源的限制,这些大模型在真正在训练过程中不一定要训练这么长的文本,通常在预训练时只会设计到4k左右。 因此 如何确保在模型推理阶段可以支持远远超过预训练时的长度 ,是目前大模型的核心问题之一,我们将这一问题归为 大模型的外推性 。 大模型的外推性目前主要在这两个方面考虑,也是提升最有效的两个角度: 寻找或设计合适的位置编码; 设计局部注意力机制。 本文从这两方面进行深度探讨大模型的位置编码和外推性问题。 三者注意力混合起来后得到第四张图,这也是普遍训练超长文本大模型时采用的方法。 实验也发现这种策略的外推性很惊艳。
这项最新进展,来自腾讯混元AI大模型。 这也是国内首个低成本、可落地的NLP万亿大模型。 随着算力的发展,模型容量持续提升,模型通用性和泛化能力也更强,研究大模型成为了近两年的趋势。国内外头部科技公司均有布局,发布了若干千亿规模以上的大模型。 当前HunYuan完整覆盖NLP大模型、CV大模型、多模态大模型、文生图大模型及众多行业/领域任务模型。 模型需要先做大后做小,大模型虽然能稳定提升下游任务效果,但实际在线业务使用的往往是压缩之后的小模型,用大模型压缩之后的小模型比直接训练小模型效果好,也是做大模型的关键依据,这点也在多个文章中被论证。 大模型压缩和分布式推理(太极-HCF ToolKit) 一个典型的预训练大模型应用流程如下所示,为了使大模型能够在可接受的推理成本下最大化业务效果,设计了一套“先蒸馏后加速”的压缩方案实现大模型的业务落地
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,就在大家争相发大模型的时候,鹅厂另辟蹊径在算力上下手了。 以训练自家大模型效果为例——万亿参数的混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。 在超大集群场景下,仍然能保持优秀的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩展。 目前,腾讯混元AI大模型已经覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。 未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。
「他可以帮助开发者做到协同设计训得好,高效系统训得快,大规模数据或模型训得动。」 ? 旷视首席科学家、研究院长孙剑发布会现场分享。 孙剑表示,天元有三大特别吸引人的优点,「第一是框架与算法的协同,框架需要为硬件开发优化算子,这样才能结合框架、设备开发最好的网络,ShuffleNet 系列高效神经网络就是协同设计的结果之一。 有这么大规模的数据,模型也需要扩增。如果模型扩大 10 倍的话,总体训练量就会增加 160 倍。而天元对于这种大模型、大数据也是没问题的,」孙剑接着说。 ? 从算法直接到部署硬件,中间不再需要转换模型,只需要几行代码与 API,模型的实践效果就能看得到。 例如它还有很强的多平台、多设备适应能力,既能灵活调用硬件能力,又可以高效训练大模型。 天元框架实际体验怎么样? 那么实际用天元写模型是什么样的体验?
而新一代AI 模型训练研发系统,正以自动化、高效化、场景化的工程能力,重构大模型从 0 到 1 的研发范式——不仅大幅降低算力与时间成本,更确保模型“生来即有用”,真正实现“研以致用、训以致胜”。 某教育大模型项目中,系统仅用原数据 30% 的高质量子集,就达到同等性能,训练成本直降 65%。系统真正的“研发引擎”,是集成了前沿算法与极致优化的分布式训练平台。 某国产大模型训练任务因此缩短 40% 时间,节省电费超百万元。二是自动化超参搜索与结构优化,告别“炼丹式调参”。 三是场景驱动的持续预训练与对齐微调,确保“训即所用”。模型不再“一次性训练完就交付”,而是根据垂直场景(如医疗、金融、教育)进行持续增量学习。 AI 模型训练研发系统,已不再是科研机构的专属利器,而是企业智能化转型的“核心产线”。它把昂贵、玄学的大模型研发,转变为可复制、可度量、可持续的工程实践,让每一分算力都转化为真实生产力。
而分布式训练的参数服务器模式采用了一种将模型参数中心化管理的方式来实现模型参数的分布式存储和更新,该模式有两个角色 Server 与 Worker:Worker 用于执行模型的前向与反向计算;Server 为了解决这两个问题,飞桨引入了两大亮点技术 SSD-MEM-HBM 三级存储和 RPC&NCCL 混合通信,形成了飞桨特有的纯 GPU 参数服务器(PaddleBox)【1】: SSD-MEM-HBM 模型并行,通信占比高,适合在机器内做模型并行且支持的模型类型有限。 流水线并行,训练设备容易出现空闲状态,加速效率没有 DP 高;但能减少通信边界支持更多的层数,适合在机器间使用。 ? 举个例子,假设用户有 4 台单机四卡的机器(共 16 张卡),训一个 16 层网络的模型。 但是在一些特殊的情况下,如果模型参数规模非常大,半数机器都无法承载,则可以进一步使用 dp_degree=1 & sharding_degree=16 方式,即将整个模型参数交由全部机器承载,这也是标准的
论文有趣的发现是让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。在看了一大堆BERT-based的模型后,看到这篇文章时便觉得眼前一亮。激发了花椒的好奇心。 是否是L1中的递归结构对语言模型的学习和迁移有帮助? 当L1是与L2不同的自然语言时,语言模型是否可以学习并迁移其中的句法结构? 虽然文中的实验结果证明代码或者乐谱中的潜在对于LSTM语言模型的预训练是有帮助的,但是他们的帮助还是没有在自然语言(英语,意大利语)带来的收益大,那么如果我们用sequencial的pre-training 或者组合在每个L1上训练的语言模型会给L2带来更大的提升吗? 有帮助,但没有不同自然语言L1带来的收益大。不过虽然music的帮助是所有实验中的L1中最小的,不过本文对于不同模态语言的潜在结构的迁移的探索是个不错的方向。 递归结构对于L2学习影响大嘛?
因为本身大模型就会存在幻觉现象,而且ARCE这个测试集有7000多条的数据,大模型基本上不可能每一条都能够答对,只能是无限趋近于100%的准确率。那盘古大模型为什么能取得这么高的分数呢? ,这个不符合现有大模型技术的逻辑。 ,但是随后HonestAGI团队发布一项名为“模型指纹”,指责盘古大模型抄袭。 这个其实真的不好说,从匿名团队 HonestAGI 在 GitHub 发布“模型指纹”报告,称盘古与阿里 Qwen-2.5 14B 权重极度相似,涉嫌“套壳续训”。 这次的这个小作文可能从另一个角度上验证了盘古大模型确实存在“套壳续训”的嫌疑。
对于很多普通用户来说,也许 ChatGPT、DeepSeek 这样的大语言模型是他们第一次真切地体会到 AI 的能力。 但实际上,AI 早已渗透得无处不在。 然而,在过去很长一段时间里,搜广推的底层架构没有发生根本性变化,甚至陷入了某种瓶颈。 来到大模型时代,一个很直接的想法是:我们如何借助生成式 AI 重塑搜广推业务?但提出想法很简单,落地很难。 比如快手推荐大模型资深算法专家王诗瑶在分享中提到,推荐系统的 MFU(Model FLOPs Utilization,模型浮点运算利用率)甚至不到 1%。 2. 通过这个架构,OneRec 成功将模型从 3B 扩展到了 8B,并且其 Loss 下降曲线完美符合大模型领域的 Scaling Law。 这些都是来自生产一线的宝贵分享,推荐大家多多了解相关的工作进展,一定会对大模型落地业务有新的思考和帮助。
虽然近两年主流LLM都采用cosine decay的学习率策略,但它有个关键问题,就是对续训很不友好。 如下图中,14k步最优值是cosine正好衰减到14k步,而其他设置都有一定差距: 这个硬性的设置就让续训变得比较难,因为预训练结束时模型的LR已经降到了比较低,收敛到局部最优,续训如果LR设置过大可能会让效果变差 告别Cosine 在近期清华的MiniCPM[2]工作中,作者提出了一个WSD策略(Warmup-Stable-Decay),即快速warmup后,一大段时间内使用固定学习率,在最后快速衰减到小的学习率 如下图中WSD(80N,8N)是指一共训80N,其中最后10%(8N)快速衰减,跟Cosine(80N)对比: WSD策略对续训就更加友好,只要拿到之前固定学习率的ckpt就可以继续训练,节省了很多计算资源 ,能否保证大模型的稳定收敛、Scaling Law生效还有待更多的实验验证。
qGPU 依托驱动层虚拟化技术,实现 MB 级显存、1% 算力的精细切分与强隔离,结合云原生调度与独有的在离线混部能力,精准解决多业务并发、成本压力、训推一体等核心痛点。 以下三大应用场景,全面释放 GPU 弹性价值:场景一:多模型并发推理|高并发下的稳定与低成本兼顾核心痛点业务高峰期多模型并发请求激增,传统整卡独占模式导致资源碎片化(单卡显存占用不足 30%),盲目扩容推高成本 ,无缝替换原有架构场景二:在离线混部|闲时资源极致复用,训推一体高效协同核心痛点在线推理与离线训练负载错配:在线需低延迟但资源占用少,离线需高算力却因资源独占被搁置,导致 "闲时闲置、忙时争抢"。 :碎片化算力聚合|大模型分布式训练的高效协同核心痛点大模型分布式训练(如 FSDP/DP 架构)面临 "单卡闲置、多卡争抢" 的碎片化问题,训练效率低下且通信成本高。 多模型并发推理:破解高并发资源碎片化2. 在离线混部:实现训推一体资源复用3.
基于词频的检索模型的一大优点就是简单有效: 对于大量文本,可以将所有段落的词频都提前统计出来,并储存为向量的形式 对于给定问题,通过向量近邻搜索就可以快速查询到最佳候选段落。 DPR的一大创新点在于线下完成所有段落的编码。训练段落编码器时,将含有标准答案字串的候选段落作为编码器的正例,其他段落作为负例。训练完成后,即可在预测前对所有段落进行编码。 然而,DPR在监督信息的获取上是存在一定问题的——这也是基于网络的检索模型训练的一大难点。DPR[3]是利用答案字符串是否出现在段落中的信号来定义编码器的正负例。 Facebook AI的研究者们提出[4],利用蒸馏阅读模型中的注意力权重可以获得更好的相似度信息。 除了训练检索模型外,开放域问答的另外一个难点在于如何将检索模型和阅读模型的打分结合选出最终答案。 接下来,作者又进一步利用知识蒸馏的方法,让检索模型学习阅读模型的注意力信号。 将注意力转化为相关度 我们利用知识蒸馏,让检索模型学习阅读模型的知识。
飞桨(PaddlePaddle)作为国内领先的自主深度学习平台,在3.0版本中重构了模型开发与部署链路,面向大模型时代提供了更智能的编译调度、更高效的资源利用与更统一的训推体验。 飞桨框架3.0不仅在推理性能上进行了系统性优化,更通过“动静统一自动并行”“训推一体设计”“神经网络编译器”“异构多芯适配”等创新能力,打通了大模型从训练到部署的全链路,为模型开发者提供了高度一致的开发体验 1.2 推理-训练统一设计:一套代码全流程复用 飞桨框架3.0秉承“训推一体”理念,解决了以往模型在训练与部署之间需要重复构建的难题。 在本次实战中,我们仅通过一行 start_server 启动命令,即完成了推理服务部署与分布式调度,无需重写模型或服务逻辑,验证了“训推一致”的工程优势。 3.3 动静融合的训推复用 Paddle3.0 的动态图/静态图切换无需代码重构,训推阶段保持一致逻辑,减少了模型部署对开发者的侵入性,大幅降低维护成本。
飞桨(PaddlePaddle)作为国内领先的自主深度学习平台,在3.0版本中重构了模型开发与部署链路,面向大模型时代提供了更智能的编译调度、更高效的资源利用与更统一的训推体验。 飞桨框架3.0不仅在推理性能上进行了系统性优化,更通过“动静统一自动并行”“训推一体设计”“神经网络编译器”“异构多芯适配”等创新能力,打通了大模型从训练到部署的全链路,为模型开发者提供了高度一致的开发体验 1.2 推理-训练统一设计:一套代码全流程复用飞桨框架3.0秉承“训推一体”理念,解决了以往模型在训练与部署之间需要重复构建的难题。 在本次实战中,我们仅通过一行 start_server 启动命令,即完成了推理服务部署与分布式调度,无需重写模型或服务逻辑,验证了“训推一致”的工程优势。 3.3 动静融合的训推复用Paddle3.0 的动态图/静态图切换无需代码重构,训推阶段保持一致逻辑,减少了模型部署对开发者的侵入性,大幅降低维护成本。