搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
1.9万亿参数量，快手落地业界首个万亿参数推荐精排模型
Google 日前发布了首个万亿级模型 Switch Transformer，参数量达到 1.6 万亿，其速度是 Google 之前开发的最大语言模型（T5-XXL）的 4 倍。实际上，快手万亿参数精排模型总的参数量超过 1.9 万亿，规模更大，且已经投入实践。这篇文章将正式介绍快手精排模型的发展史。 ? 快手用户长期兴趣精排模型结构示意图千亿特征，万亿参数随着模型的迭代，深度学习网络的复杂度越来越高，模型中添加的特征数量也越来越多，模型特征规模的大小也制约了精排模型的迭代。为了解决这个问题，快手推荐和架构的同学针对训练引擎和线上 serving 进行改进，做到离线训练和线上 serving 的服务根据配置的特征量灵活扩展，可以支持精排模型离线跟线上有千亿特征，万亿参数的规模为了适配这种硬件，推荐团队实现了底层 KV 引擎 NVMKV 来支撑 GSET，从而很好的确保了万亿参数模型的线上稳定性。
2.6K10发布于 2021-02-23
来自专栏活动
稀疏化训练：DeepSeek万亿参数管理秘籍
然而，庞大的模型参数带来了巨大的计算和存储成本，使得模型的部署和运行面临诸多挑战。DeepSeek作为一个拥有万亿参数的超大规模模型，面临着前所未有的管理难题。为了解决这一问题，稀疏化训练技术应运而生，成为DeepSeek万亿参数管理的关键秘籍。 1.1 大模型时代的算力困境行业现状与数据冲击 2023年，全球顶级大模型参数量突破1.8万亿（如Google Gemini），但硬件算力增速仅保持年均1.5倍提升（数据来源：OpenAI 2023年度报告以典型NLP任务为例：参数量准确率提升算力消耗增长500亿 82% → 85% 1x → 3x 1万亿 85% → 86.2%3x → 28x （数据来源：DeepSeek实验室内部测试稀疏化训练作为一种有效的模型优化技术，在DeepSeek万亿参数管理中发挥着关键作用。通过引入稀疏性，不仅能够显著减少模型的参数数量和计算复杂度，还能在保持模型性能的前提下降低存储和计算成本。
70220编辑于 2025-03-21
来自专栏机器学习算法与Python学习
谷歌开源巨无霸语言模型Switch Transformer，1.6万亿参数！
---- 新智元报道来源：外媒，编辑：yaxin 万亿级参数模型Switch Transformer开源了！距GPT-3问世不到一年的时间，谷歌大脑团队就重磅推出了超级语言模型Switch Transformer，有1.6万亿个参数。结果得到一个稀疏激活（sparsely activated）模型——仅使用模型的权值子集，或仅转换模型中输入数据的参数。该参数数量惊人，但计算成本恒定。谷歌研究人员声称，他们的 1.6 万亿参数模型（Switch-C），拥有 2048 名专家，显示出「完全没有训练不稳定性」，其速度相比于T5-XXL模型提升了4倍，比基本的 T5 模型快了7倍。这些进步使得使用数千亿到万亿参数训练模型成为可能，相对于密集的T5基准，这些模型可以实现显著的加速。
1.2K30发布于 2021-03-10
来自专栏AI分享
Blackwell Ultra GPU未来展望：万亿参数模型训练
随着生成式AI和大语言模型（LLM）的爆发式发展，模型规模已从千亿级迈向万亿级参数时代。这一趋势对算力基础设施提出了前所未有的挑战：如何高效支持超大规模模型的训练与推理？本文将从Blackwell Ultra GPU的技术革新、Azure AI的生态系统适配、万亿参数模型训练的具体实践，以及未来技术演进的路径展开分析。 Blackwell Ultra GPU：万亿参数模型的硬件基石1.1 架构设计的突破性创新Blackwell架构通过全栈系统性优化，突破了超大规模AI模型训练的算力天花板。）与万亿参数模型间的数量级差距，研发团队提出"分级分片缓存"架构。从硬件架构的颠覆性创新，到云平台的全栈优化，这一组合不仅突破了万亿参数训练的算力极限，更重新定义了AI基础设施的构建范式。
4.8K00编辑于 2025-04-11
来自专栏量子位
谷歌PaLM 2细节曝光：3.6万亿token，3400亿参数
据CNBC爆料，训练它所用到的token数量多达3.6万亿。这是什么概念？要知道，在去年谷歌发布PaLM时，训练token的数量也仅为7800亿。而内部文件则是将具体数值爆料了出来——3400亿个参数（初代PaLM是5400亿）。这表明，谷歌通过技术“buff加持”，在参数量更小的情况下，让模型可以更高效地完成更复杂的任务。
50920编辑于 2023-05-19
来自专栏新智元
1.8万亿巨量参数，13万亿token训练，斥资6300万美元
模型框架首先爆料作者认为，GPT-4在120层中总共包含了1.8万亿参数，而GPT-3只有约1750亿个参数。也就是说，GPT-4的规模是GPT-3的10倍以上。此前网上流传的说法是，GPT-4的参数是100万亿，但已被辟谣为了保持合理的成本，OpenAI采用了MoE模型来进行构建。这与很多纯密集模型每次前向传播需要大约1.8万亿参数和3700TFLOPs形成了鲜明的对比。数据集的构成 OpenAI用13万亿的token训出了GPT-4。这个数据集不单单是包含了13万亿的token，而且因为没有高质量的token，这个数据集还包含了许多个epoch。在Scale AI和数据集内部，还包含了数百万行的指令微调数据。 GPT-4多模态能力是在文本预训练之后，又用大约2万亿token进⾏了微调。据称，在视觉模型上，OpenAI原本希望从头开始训练，但因其不够成熟，无奈从文本训练模型进行微调。
1.2K10编辑于 2023-08-07
来自专栏AI科技评论
英伟达 GTC 大会携万亿参数 GPU「炸裂」 AI 行业
英伟达指出，新 Blackwell 架构 GPU 组成的 GB200，将提供 4 倍于 Hopper 的训练性能，大模型参数达到了万亿级别。这意味着同样的计算能力，科技厂商所需的芯片数量会减少。他宣布英伟达将推出GB200系列芯片，将搭载专为处理万亿参数级生成式人工智能而设计的NVIDIA Blackwell架构。 GB200芯片由两个Die封装组合而成，拥有高达2080亿个晶体管，采用了台积电4NP工艺制程技术，使其能够支持庞大的AI模型，参数量可达10万亿。黄仁勋以训练1.8万亿参数GPT模型的资源消耗为例，直观地展现了 Backwell 作为 “一个巨型 GPU” 的强大之处：使用Hopper GPU，需8000张，耗能15兆瓦，耗时90天；而Blackwell 毕竟，新 Blackwell 架构 GPU 组成的 GB200，将提供 4 倍于 Hopper 的训练性能，大模型参数达到了万亿级别。
41710编辑于 2024-03-25
万亿参数模型推理加速全攻略》
万亿参数模型推理加速全攻略家人们，如今 AI 界 “卷” 得那叫一个厉害，万亿参数模型如雨后春笋般不断涌现。这些模型虽然超级强大，但对算力的要求，简直就是 “无底洞”。今天，小编就带着大家，一起探索万亿参数模型推理优化的秘籍，从混合精度计算到分布式显存调度，为大家奉上全链路加速指南！推理优化前奏：认识万亿参数模型1. 万亿参数模型有多牛？在 AI 领域，模型的参数规模，就像是武侠世界里大侠的内力，参数越多，模型能 “记住” 和处理的信息就越多。万亿参数模型凭借海量的参数，拥有超强的语言理解、图像识别，甚至复杂决策能力。千亿参数模型出现 : 在多个领域取得显著成果万亿参数模型诞生 : 开启AI新时代2. 单个 GPU 的计算能力和显存容量有限，面对万亿参数模型，往往 “力不从心”。
50310编辑于 2025-04-03
来自专栏机器之心
专访唐杰：万亿参数大模型只是一个开始
2021 年 6 月，北京智源人工智能研究院（以下简称「智源研究院」）发布「悟道2.0」巨模型，以 1.75 万亿的参数量成为迄今全球规模最大的预训练模型。唐杰表示，万亿参数大模型只是一个开始，作为一种科学上的探索，智源悟道团队将坚持在「大」这条路上走下去，探索其边界，因为他们已经在大模型上观察到了以往小模型上所不曾有过的现象。在拥有 1.75 万亿参数的悟道 2.0 上，唐杰团队观察到模型不需要训练数据，可以自动从未标记的数据中学出一些人类知识，有的机器学习出的知识图谱比人工标注的质量还要好。不同于传统意义上的知识，存储在神经网络中的知识由模型的参数及架构决定，一般难以被人理解。悟道团队会在一直往「大」做上去，直至其边界从悟道 1.0 到 2.0，历时不到 3 个月，模型参数量增长了千倍，规模也做到了全球引领。
79640发布于 2021-08-06
来自专栏DeepHub IMBA
mmBERT：307M参数覆盖1800+语言，3万亿tokens训练
mmBERT是一个纯编码器架构的语言模型，在1800多种语言、3万亿tokens的文本上完成了预训练。它的架构设计借鉴了ModernBERT，但又加入了不少创新点，比如逆掩码比率调度和逆温度采样。从参数量来看，base版本的非嵌入参数跟ModernBERT-base持平，都是110M，但因为词表扩大了，总参数量达到307M。small版本总共140M参数，其中非嵌入部分42M。级联退火语言学习（ALL） Fineweb2数据在训练中的逆温度采样比率变化，τ从0.7降到0.5再到0.3 以前的做法是固定语言集合，用设定好的温度参数采样多语言数据。 base版本从每个混合里挑最好的checkpoint，用TIES-merging减少参数冲突。 small模型跨混合合并效果不理想，可能因为权重空间较小导致参数一致性不够，所以改用Decay-All checkpoints的指数加权合并，这种方案表现最好。
19610编辑于 2025-11-15
来自专栏机器之心
100万亿参数的GPT 4 刷屏AI社区，大概率是假消息
今天，你的朋友圈一定有这样一则重磅消息：「GPT 3 有 1750 亿参数，而接下来的 GPT4 的参数高达 100 万亿」。虽然我们也惊叹 OpenAI 创造记录的能力，但关于「GPT 4 参数高达 100 万亿」这个事我们还是持怀疑态度。于是认真查询了下信息源及其可靠性。推特用户@ Russell Thomas 表示，「GPT4 的参数数据是不对的。一年前就传出 GPT4 的参数会达到 100 万亿，但最近被证实是不正确的。其实，在去年 11 月 23 日传出类似的 GPT4 参数量将达到 100 万亿时，OpenAI CEO Sam Altman 只说了一句话，「大家伙都太不冷静了」。综合各方的消息，100 万亿参数量的 GPT 4 大概率是个假消息。最后说一句，OpenAI 一直未出面正式回应 GPT 4 的参数量有多少，让谣言「飞一会儿」。这大概也是他们的 PR 策略吧。
28520编辑于 2023-03-29
来自专栏机器之心
3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光
机器之心报道编辑：杜伟、陈萍谷歌内部文件又泄露了，这次是谷歌新一代大模型 PaLM 2 的训练细节：训练数据量是前代的近 5 倍、参数量是前代的三分之二左右。昨日，据外媒 CNBC 看到的内部文件称，PaLM 2 是在 3.6 万亿个 token 上训练。作为对比，上代 PaLM 接受了 7800 亿 token 的训练。这一点也在内部文件中得到了验证，PaLM 2 的训练参数量为 3400 亿，远小于 PaLM 的 5400 亿。 PaLM 2 的训练 token 和参数量与其他家的 LLM 相比如何呢？作为对比，Meta 在 2 月发布的 LLaMA 接受了 1.4 万亿 token 的训练。OpenAI 1750 亿参数的 GPT-3 是在 3000 亿 token 上训练的。网友评论在官宣 PaLM 2 之初，就有网友根据 Chinchilla 定律预测其参数量，ta 预测 PaLM 2 模型家族的参数结果为 80B / 90B / 100B 不等，和这次爆料的 340B
50420编辑于 2023-05-22
来自专栏新智元
1.75万亿，世界第一！智源发布「悟道2.0」巨模型，中国首个万亿模型参数为GPT-3的10倍
它在模型规模上爆发级增长，达到1.75万亿参数，创下全球最大预训练模型纪录。从1750 亿参数量的 GPT-3，到万亿级别的Switch Transformer，参数量的记录在不断刷新。悟道2.0巨模型打破了之前由OpenAI的GPT-3预训练模型创造的1750亿参数规模，是GPT-3的十倍，再次突破了人们对大模型的想象。「除了参数规模之外，悟道2.0还可以同时支撑更多的应用，实现更加通用的智能。另外，我们首次在100%的国产超算平台上训练了万亿模型。」它是打破国外技术瓶颈，实现「万亿模型」基⽯的关键。「过往，谷歌万亿模型的核心技术 MoE (Mixture of Experts) 和其昂贵的硬件强绑定，绝⼤多数人⽆法得到使用与研究机会。」 MoE是一个在神经网络中引入「若干专家网络 (Expert Network) 」的技术，能直接推动预训练模型经从亿级参数到万亿级参数的跨越，但离不开对谷歌分布式训练框架 mesh-tensorflow
1.4K10编辑于 2023-05-22
Gemini 3深度量化分析：Google的万亿参数巨兽到底有多强？
核心规格：参数量：9万亿（GPT-5的90%，但效率更高）上下文：1000万token（可一次处理整套维基百科）模态：原生支持文本、图像、视频、音频、3D点云训练成本：30亿美元突破性成就： Gemini 3是首个在图像问答超越人类平均水平的模型实时视频理解：可分析1小时视频，理解情节、人物关系跨模态推理：能根据音频+视频+文本综合判断场景三、架构量化：9万亿参数如何炼成 3.1 核心架构数据技术指标 Gemini 3 Gemini 2 提升幅度参数量 9万亿 1.5万亿 6倍激活参数 900亿 240亿 3.75倍专家数量 2048个 32个 64倍上下文长度 1000万 200万 5倍训练token 25万亿 5万亿 5倍训练成本 $3B $0.5B 6倍 3.2 无限注意力机制 python # Gemini 3的核心创新：分层压缩注意力 class 前向传播（只激活5%的参数） activations = self.forward_sparse(batch) # 2.
42710编辑于 2026-04-22
来自专栏新智元
400亿参数，万亿token训练，霸榜Hugging Face
其最大的版本，Falcon 40B，拥有400亿参数，相对于拥有650亿参数的LLaMA来说，规模上还是小了一点。规模虽小，性能能打。尽管「Falcon」的论文目前还没公开发布，但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。在彻底清理多余重复内容后，保留了 5 万亿的token——足以训练强大的语言模型。 40B的Falcon LM使用1万亿个token进行训练， 7B版本的模型训练token达到 1.5 万亿。
36610编辑于 2023-08-07
DeepSeek-V4 发布在即：万亿参数与架构级创新重塑大模型景观
计算存储解耦：传统模型在进行推理时，必须将所有参数加载到昂贵的 GPU 显存（HBM）中。实验表明，Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式，减轻 Transformer 主干的负担，为万亿级参数规模的平价扩展铺平了道路。通过极高的参数效率和对国产算力（如华为、寒武纪等）的深度优化，DeepSeek 正在尝试在不完全依赖顶配美国芯片的情况下，构建具备全球竞争力的 AI 生态。
4K280编辑于 2026-03-03
来自专栏【腾讯云开发者】
鹅厂发布的这个算力集群，最快4天训练万亿参数大模型
这是腾讯云面向大模型训练场景，发布的全新一代的HCC高性能计算集群性能参数： “算力性能和上一代相比提升3倍，服务器接入带宽从1.6T提升到3.2T。” 去年10月，腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下，将训练时间由50天缩短到11天。如果基于新一代集群，训练时间将进一步缩短至4天。如此庞大的参数规模，单独一块GPU运算卡甚至都完成不了最基本的装载，这也使得我们要用网络联接成千上万的服务器组建大规模算力集群，为大模型提供所需的算力。 2.2 网络：自研星脉高性能计算网络，将集群算力再提升20% 我们知道，模型参数量越大，对带宽的需求就越高。而万亿参数大模型训练，是一种带宽敏感的计算业务，往往是All-to-All的通信模式。
3.4K51编辑于 2023-04-19
来自专栏新智元
1.6万亿参数，等于9个GPT-3 谷歌开源巨无霸语言模型Switch Transformer
---- 新智元报道来源：外媒编辑：yaxin 【新智元导读】「上个月，谷歌重磅推出的语言模型Switch Transformer代码已经开源，该模型可谓迄今最大语言模型，有1.6万亿参数万亿级参数模型Switch Transformer开源了！距GPT-3问世不到一年的时间，谷歌大脑团队就重磅推出了超级语言模型Switch Transformer，有1.6万亿个参数。 ? 结果得到一个稀疏激活（sparsely activated）模型——仅使用模型的权值子集，或仅转换模型中输入数据的参数。该参数数量惊人，但计算成本恒定。 ? 谷歌研究人员声称，他们的 1.6 万亿参数模型（Switch-C），拥有 2048 名专家，显示出「完全没有训练不稳定性」，其速度相比于T5-XXL模型提升了4倍，比基本的 T5 模型快了7倍。 ? 这些进步使得使用数千亿到万亿参数训练模型成为可能，相对于密集的T5基准，这些模型可以实现显著的加速。
58630发布于 2021-03-10
来自专栏智算中心网络
万亿参数大模型网络瓶颈突破：突破90%网络利用率的技术实践
GPT大模型的参数量已突破万亿级别，自动驾驶训练需要处理PB级的场景数据，这些都使得AI计算集群规模呈指数级增长。随着AI大模型参数规模突破10万亿，超级以太网正从技术概念演变为算力基础设施的关键支柱。通过架构革新与协议栈重构，网络利用率突破90%已具备工程可行性。
75110编辑于 2025-04-28
来自专栏机器之心
1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3
近几年，我们已经看到模型规模越来越大，例如 2018 年诞生的 GPT 具有 1.17 亿参数，时隔一年，2019 年 GPT-2 参数量达到 15 亿，2020 年更是将其扩展到 1750 亿参数的为了回答这个问题，谷歌推出了具有万亿权重的通用语言模型 (Generalist Language Model，GLaM)，该模型的一大特点就是具有稀疏性，可以高效地进行训练和服务（在计算和资源使用方面）数据集谷歌首先构建了一个高质量的、具有 1.6 万亿 token 的数据集，该无标签数据集很大一部分来自 Web 页面，其范围从专业写作到低质量的评论和论坛页面。完整的 GLaM 总共有 1.2T 参数，每个 MoE 包含 64 个专家，总共 32 个 MoE 层，但在推理期间，模型只会激活 97B 的参数，占总参数的 8%。此外，虽然完整版 GLaM 有 1.2T 的总参数，但在推理过程中每个 token 仅激活 97B 参数（1.2T 的 8%）的子网。
1.3K40编辑于 2021-12-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

1.9万亿参数量，快手落地业界首个万亿参数推荐精排模型

稀疏化训练：DeepSeek万亿参数管理秘籍

谷歌开源巨无霸语言模型Switch Transformer，1.6万亿参数！

Blackwell Ultra GPU未来展望：万亿参数模型训练

谷歌PaLM 2细节曝光：3.6万亿token，3400亿参数

1.8万亿巨量参数，13万亿token训练，斥资6300万美元

英伟达 GTC 大会携万亿参数 GPU「炸裂」 AI 行业

万亿参数模型推理加速全攻略》

专访唐杰：万亿参数大模型只是一个开始

mmBERT：307M参数覆盖1800+语言，3万亿tokens训练

100万亿参数的GPT 4 刷屏AI社区，大概率是假消息

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光

1.75万亿，世界第一！智源发布「悟道2.0」巨模型，中国首个万亿模型参数为GPT-3的10倍

Gemini 3深度量化分析：Google的万亿参数巨兽到底有多强？

400亿参数，万亿token训练，霸榜Hugging Face

DeepSeek-V4 发布在即：万亿参数与架构级创新重塑大模型景观

鹅厂发布的这个算力集群，最快4天训练万亿参数大模型

1.6万亿参数，等于9个GPT-3 谷歌开源巨无霸语言模型Switch Transformer

万亿参数大模型网络瓶颈突破：突破90%网络利用率的技术实践

1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

1.9万亿参数量，快手落地业界首个万亿参数推荐精排模型

稀疏化训练：DeepSeek万亿参数管理秘籍

谷歌开源巨无霸语言模型Switch Transformer，1.6万亿参数！

Blackwell Ultra GPU未来展望：万亿参数模型训练

谷歌PaLM 2细节曝光：3.6万亿token，3400亿参数

1.8万亿巨量参数，13万亿token训练，斥资6300万美元

英伟达 GTC 大会携万亿参数 GPU「炸裂」 AI 行业

万亿参数模型推理加速全攻略 》

专访唐杰：万亿参数大模型只是一个开始

mmBERT：307M参数覆盖1800+语言，3万亿tokens训练

100万亿参数的GPT 4 刷屏AI社区，大概率是假消息

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光

1.75万亿，世界第一！智源发布「悟道2.0」巨模型，中国首个万亿模型参数为GPT-3的10倍

Gemini 3深度量化分析：Google的万亿参数巨兽到底有多强？

400亿参数，万亿token训练，霸榜Hugging Face

DeepSeek-V4 发布在即：万亿参数与架构级创新重塑大模型景观

鹅厂发布的这个算力集群，最快4天训练万亿参数大模型

1.6万亿参数，等于9个GPT-3 谷歌开源巨无霸语言模型Switch Transformer

万亿参数大模型网络瓶颈突破：突破90%网络利用率的技术实践

1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

万亿参数模型推理加速全攻略》