Google 日前发布了首个万亿级模型 Switch Transformer,参数量达到 1.6 万亿,其速度是 Google 之前开发的最大语言模型(T5-XXL)的 4 倍。 实际上,快手万亿参数精排模型总的参数量超过 1.9 万亿,规模更大,且已经投入实践。这篇文章将正式介绍快手精排模型的发展史。 ? 快手用户长期兴趣精排模型结构示意图 千亿特征,万亿参数 随着模型的迭代,深度学习网络的复杂度越来越高,模型中添加的特征数量也越来越多,模型特征规模的大小也制约了精排模型的迭代。 为了解决这个问题,快手推荐和架构的同学针对训练引擎和线上 serving 进行改进,做到离线训练和线上 serving 的服务根据配置的特征量灵活扩展,可以支持精排模型离线跟线上有千亿特征,万亿参数的规模 为了适配这种硬件,推荐团队实现了底层 KV 引擎 NVMKV 来支撑 GSET,从而很好的确保了万亿参数模型的线上稳定性。
然而,庞大的模型参数带来了巨大的计算和存储成本,使得模型的部署和运行面临诸多挑战。DeepSeek作为一个拥有万亿参数的超大规模模型,面临着前所未有的管理难题。 为了解决这一问题,稀疏化训练技术应运而生,成为DeepSeek万亿参数管理的关键秘籍。 1.1 大模型时代的算力困境行业现状与数据冲击 2023年,全球顶级大模型参数量突破1.8万亿(如Google Gemini),但硬件算力增速仅保持年均1.5倍提升(数据来源:OpenAI 2023年度报告 以典型NLP任务为例: 参数量准确率提升算力消耗增长500亿 82% → 85% 1x → 3x 1万亿 85% → 86.2%3x → 28x (数据来源:DeepSeek实验室内部测试 稀疏化训练作为一种有效的模型优化技术,在DeepSeek万亿参数管理中发挥着关键作用。通过引入稀疏性,不仅能够显著减少模型的参数数量和计算复杂度,还能在保持模型性能的前提下降低存储和计算成本。
---- 新智元报道 来源:外媒,编辑:yaxin 万亿级参数模型Switch Transformer开源了! 距GPT-3问世不到一年的时间,谷歌大脑团队就重磅推出了超级语言模型Switch Transformer,有1.6万亿个参数。 结果得到一个稀疏激活(sparsely activated)模型——仅使用模型的权值子集,或仅转换模型中输入数据的参数。该参数数量惊人,但计算成本恒定。 谷歌研究人员声称,他们的 1.6 万亿参数模型(Switch-C),拥有 2048 名专家,显示出「完全没有训练不稳定性」,其速度相比于T5-XXL模型提升了4倍,比基本的 T5 模型快了7倍。 这些进步使得使用数千亿到万亿参数训练模型成为可能,相对于密集的T5基准,这些模型可以实现显著的加速。
随着生成式AI和大语言模型(LLM)的爆发式发展,模型规模已从千亿级迈向万亿级参数时代。这一趋势对算力基础设施提出了前所未有的挑战:如何高效支持超大规模模型的训练与推理? 本文将从Blackwell Ultra GPU的技术革新、Azure AI的生态系统适配、万亿参数模型训练的具体实践,以及未来技术演进的路径展开分析。 Blackwell Ultra GPU:万亿参数模型的硬件基石1.1 架构设计的突破性创新Blackwell架构通过全栈系统性优化,突破了超大规模AI模型训练的算力天花板。 )与万亿参数模型间的数量级差距,研发团队提出"分级分片缓存"架构。 从硬件架构的颠覆性创新,到云平台的全栈优化,这一组合不仅突破了万亿参数训练的算力极限,更重新定义了AI基础设施的构建范式。
据CNBC爆料,训练它所用到的token数量多达3.6万亿。 这是什么概念? 要知道,在去年谷歌发布PaLM时,训练token的数量也仅为7800亿。 而内部文件则是将具体数值爆料了出来——3400亿个参数(初代PaLM是5400亿)。 这表明,谷歌通过技术“buff加持”,在参数量更小的情况下,让模型可以更高效地完成更复杂的任务。
模型框架 首先爆料作者认为,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。 也就是说,GPT-4的规模是GPT-3的10倍以上。 此前网上流传的说法是,GPT-4的参数是100万亿,但已被辟谣 为了保持合理的成本,OpenAI采用了MoE模型来进行构建。 这与很多纯密集模型每次前向传播需要大约1.8万亿参数和3700TFLOPs形成了鲜明的对比。 数据集的构成 OpenAI用13万亿的token训出了GPT-4。 这个数据集不单单是包含了13万亿的token,而且因为没有高质量的token,这个数据集还包含了许多个epoch。 在Scale AI和数据集内部,还包含了数百万行的指令微调数据。 GPT-4多模态能力是在文本预训练之后,又用大约2万亿token进⾏了微调。 据称,在视觉模型上,OpenAI原本希望从头开始训练,但因其不够成熟,无奈从文本训练模型进行微调。
英伟达指出,新 Blackwell 架构 GPU 组成的 GB200,将提供 4 倍于 Hopper 的训练性能,大模型参数达到了万亿级别。这意味着同样的计算能力,科技厂商所需的芯片数量会减少。 他宣布英伟达将推出GB200系列芯片,将搭载专为处理万亿参数级生成式人工智能而设计的NVIDIA Blackwell架构。 GB200芯片由两个Die封装组合而成,拥有高达2080亿个晶体管,采用了台积电4NP工艺制程技术,使其能够支持庞大的AI模型,参数量可达10万亿。 黄仁勋以训练1.8万亿参数GPT模型的资源消耗为例,直观地展现了 Backwell 作为 “一个巨型 GPU” 的强大之处:使用Hopper GPU,需8000张,耗能15兆瓦,耗时90天;而Blackwell 毕竟,新 Blackwell 架构 GPU 组成的 GB200,将提供 4 倍于 Hopper 的训练性能,大模型参数达到了万亿级别。
万亿参数模型推理加速全攻略家人们,如今 AI 界 “卷” 得那叫一个厉害,万亿参数模型如雨后春笋般不断涌现。这些模型虽然超级强大,但对算力的要求,简直就是 “无底洞”。 今天,小编就带着大家,一起探索万亿参数模型推理优化的秘籍,从混合精度计算到分布式显存调度,为大家奉上全链路加速指南!推理优化前奏:认识万亿参数模型1. 万亿参数模型有多牛? 在 AI 领域,模型的参数规模,就像是武侠世界里大侠的内力,参数越多,模型能 “记住” 和处理的信息就越多。万亿参数模型凭借海量的参数,拥有超强的语言理解、图像识别,甚至复杂决策能力。 千亿参数模型出现 : 在多个领域取得显著成果 万亿参数模型诞生 : 开启AI新时代2. 单个 GPU 的计算能力和显存容量有限,面对万亿参数模型,往往 “力不从心”。
2021 年 6 月,北京智源人工智能研究院(以下简称「智源研究院」)发布「悟道2.0」巨模型,以 1.75 万亿的参数量成为迄今全球规模最大的预训练模型。 唐杰表示,万亿参数大模型只是一个开始,作为一种科学上的探索,智源悟道团队将坚持在「大」这条路上走下去,探索其边界,因为他们已经在大模型上观察到了以往小模型上所不曾有过的现象。 在拥有 1.75 万亿参数的悟道 2.0 上,唐杰团队观察到模型不需要训练数据,可以自动从未标记的数据中学出一些人类知识,有的机器学习出的知识图谱比人工标注的质量还要好。 不同于传统意义上的知识,存储在神经网络中的知识由模型的参数及架构决定,一般难以被人理解。 悟道团队会在一直往「大」做上去,直至其边界 从悟道 1.0 到 2.0,历时不到 3 个月,模型参数量增长了千倍,规模也做到了全球引领。
mmBERT是一个纯编码器架构的语言模型,在1800多种语言、3万亿tokens的文本上完成了预训练。它的架构设计借鉴了ModernBERT,但又加入了不少创新点,比如逆掩码比率调度和逆温度采样。 从参数量来看,base版本的非嵌入参数跟ModernBERT-base持平,都是110M,但因为词表扩大了,总参数量达到307M。small版本总共140M参数,其中非嵌入部分42M。 级联退火语言学习(ALL) Fineweb2数据在训练中的逆温度采样比率变化,τ从0.7降到0.5再到0.3 以前的做法是固定语言集合,用设定好的温度参数采样多语言数据。 base版本从每个混合里挑最好的checkpoint,用TIES-merging减少参数冲突。 small模型跨混合合并效果不理想,可能因为权重空间较小导致参数一致性不够,所以改用Decay-All checkpoints的指数加权合并,这种方案表现最好。
今天,你的朋友圈一定有这样一则重磅消息: 「GPT 3 有 1750 亿参数,而接下来的 GPT4 的参数高达 100 万亿」。 虽然我们也惊叹 OpenAI 创造记录的能力,但关于「GPT 4 参数高达 100 万亿」这个事我们还是持怀疑态度。于是认真查询了下信息源及其可靠性。 推特用户@ Russell Thomas 表示,「GPT4 的参数数据是不对的。一年前就传出 GPT4 的参数会达到 100 万亿,但最近被证实是不正确的。 其实,在去年 11 月 23 日传出类似的 GPT4 参数量将达到 100 万亿时,OpenAI CEO Sam Altman 只说了一句话,「大家伙都太不冷静了」。 综合各方的消息,100 万亿参数量的 GPT 4 大概率是个假消息。 最后说一句,OpenAI 一直未出面正式回应 GPT 4 的参数量有多少,让谣言「飞一会儿」。这大概也是他们的 PR 策略吧。
机器之心报道 编辑:杜伟、陈萍 谷歌内部文件又泄露了,这次是谷歌新一代大模型 PaLM 2 的训练细节:训练数据量是前代的近 5 倍、参数量是前代的三分之二左右。 昨日,据外媒 CNBC 看到的内部文件称,PaLM 2 是在 3.6 万亿个 token 上训练。作为对比,上代 PaLM 接受了 7800 亿 token 的训练。 这一点也在内部文件中得到了验证,PaLM 2 的训练参数量为 3400 亿,远小于 PaLM 的 5400 亿。 PaLM 2 的训练 token 和参数量与其他家的 LLM 相比如何呢? 作为对比,Meta 在 2 月发布的 LLaMA 接受了 1.4 万亿 token 的训练。OpenAI 1750 亿参数的 GPT-3 是在 3000 亿 token 上训练的。 网友评论 在官宣 PaLM 2 之初,就有网友根据 Chinchilla 定律预测其参数量,ta 预测 PaLM 2 模型家族的参数结果为 80B / 90B / 100B 不等,和这次爆料的 340B
它在模型规模上爆发级增长,达到1.75万亿参数,创下全球最大预训练模型纪录。 从1750 亿参数量的 GPT-3,到万亿级别的Switch Transformer,参数量的记录在不断刷新。 悟道2.0巨模型打破了之前由OpenAI的GPT-3预训练模型创造的1750亿参数规模,是GPT-3的十倍,再次突破了人们对大模型的想象。 「除了参数规模之外,悟道2.0还可以同时支撑更多的应用,实现更加通用的智能。另外,我们首次在100%的国产超算平台上训练了万亿模型。」 它是打破国外技术瓶颈,实现「万亿模型」基⽯的关键。 「过往,谷歌万亿模型的核心技术 MoE (Mixture of Experts) 和其昂贵的硬件强绑定,绝⼤多数人⽆法得到使用与研究机会。」 MoE是一个在神经网络中引入「若干专家网络 (Expert Network) 」的技术,能直接推动预训练模型经从亿级参数到万亿级参数的跨越,但离不开对谷歌分布式训练框架 mesh-tensorflow
核心规格: 参数量:9万亿(GPT-5的90%,但效率更高) 上下文:1000万token(可一次处理整套维基百科) 模态:原生支持文本、图像、视频、音频、3D点云 训练成本:30亿美元 突破性成就: Gemini 3是首个在图像问答超越人类平均水平的模型 实时视频理解:可分析1小时视频,理解情节、人物关系 跨模态推理:能根据音频+视频+文本综合判断场景 三、架构量化:9万亿参数如何炼成 3.1 核心架构数据 技术指标 Gemini 3 Gemini 2 提升幅度 参数量 9万亿 1.5万亿 6倍 激活参数 900亿 240亿 3.75倍 专家数量 2048个 32个 64倍 上下文长度 1000万 200万 5倍 训练token 25万亿 5万亿 5倍 训练成本 $3B $0.5B 6倍 3.2 无限注意力机制 python # Gemini 3的核心创新:分层压缩注意力 class 前向传播(只激活5%的参数) activations = self.forward_sparse(batch) # 2.
其最大的版本,Falcon 40B,拥有400亿参数,相对于拥有650亿参数的LLaMA来说,规模上还是小了一点。 规模虽小,性能能打。 尽管「Falcon」的论文目前还没公开发布,但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。 在彻底清理多余重复内容后,保留了 5 万亿的token——足以训练强大的语言模型。 40B的Falcon LM使用1万亿个token进行训练, 7B版本的模型训练token达到 1.5 万亿。
计算存储解耦: 传统模型在进行推理时,必须将所有参数加载到昂贵的 GPU 显存(HBM)中。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。 通过极高的参数效率和对国产算力(如华为、寒武纪等)的深度优化,DeepSeek 正在尝试在不完全依赖顶配美国芯片的情况下,构建具备全球竞争力的 AI 生态。
这是腾讯云面向大模型训练场景,发布的全新一代的HCC高性能计算集群性能参数: “算力性能和上一代相比提升3倍,服务器接入带宽从1.6T提升到3.2T。” 去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。 如此庞大的参数规模,单独一块GPU运算卡甚至都完成不了最基本的装载,这也使得我们要用网络联接成千上万的服务器组建大规模算力集群,为大模型提供所需的算力。 2.2 网络:自研星脉高性能计算网络,将集群算力再提升20% 我们知道,模型参数量越大,对带宽的需求就越高。 而万亿参数大模型训练,是一种带宽敏感的计算业务,往往是All-to-All的通信模式。
---- 新智元报道 来源:外媒 编辑:yaxin 【新智元导读】「上个月,谷歌重磅推出的语言模型Switch Transformer代码已经开源,该模型可谓迄今最大语言模型,有1.6万亿参数 万亿级参数模型Switch Transformer开源了! 距GPT-3问世不到一年的时间,谷歌大脑团队就重磅推出了超级语言模型Switch Transformer,有1.6万亿个参数。 ? 结果得到一个稀疏激活(sparsely activated)模型——仅使用模型的权值子集,或仅转换模型中输入数据的参数。该参数数量惊人,但计算成本恒定。 ? 谷歌研究人员声称,他们的 1.6 万亿参数模型(Switch-C),拥有 2048 名专家,显示出「完全没有训练不稳定性」,其速度相比于T5-XXL模型提升了4倍,比基本的 T5 模型快了7倍。 ? 这些进步使得使用数千亿到万亿参数训练模型成为可能,相对于密集的T5基准,这些模型可以实现显著的加速。
GPT大模型的参数量已突破万亿级别,自动驾驶训练需要处理PB级的场景数据,这些都使得AI计算集群规模呈指数级增长。 随着AI大模型参数规模突破10万亿,超级以太网正从技术概念演变为算力基础设施的关键支柱。通过架构革新与协议栈重构,网络利用率突破90%已具备工程可行性。
近几年,我们已经看到模型规模越来越大,例如 2018 年诞生的 GPT 具有 1.17 亿参数,时隔一年,2019 年 GPT-2 参数量达到 15 亿,2020 年更是将其扩展到 1750 亿参数的 为了回答这个问题,谷歌推出了具有万亿权重的通用语言模型 (Generalist Language Model,GLaM),该模型的一大特点就是具有稀疏性,可以高效地进行训练和服务(在计算和资源使用方面) 数据集 谷歌首先构建了一个高质量的、具有 1.6 万亿 token 的数据集,该无标签数据集很大一部分来自 Web 页面,其范围从专业写作到低质量的评论和论坛页面。 完整的 GLaM 总共有 1.2T 参数,每个 MoE 包含 64 个专家,总共 32 个 MoE 层,但在推理期间,模型只会激活 97B 的参数,占总参数的 8%。 此外,虽然完整版 GLaM 有 1.2T 的总参数,但在推理过程中每个 token 仅激活 97B 参数(1.2T 的 8%)的子网。