搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

深度学习前沿：稀疏专家模型（MoE）门控机制的探索
稀疏专家模型（MoE）概述在深度学习领域，稀疏专家模型（Mixture of Experts, MoE）正成为处理超大规模模型的重要范式。 2021年Google推出的Switch Transformer将专家数量扩展到数千个，验证了超大规模稀疏模型的可行性。负载均衡的数学建模在稀疏专家模型（MoE）的架构中，负载均衡问题直接决定了模型的计算效率和资源利用率。未来展望与挑战技术演进的三重突破方向当前稀疏专家模型（MoE）的门控机制正面临从"可用"到"好用"的关键跃迁阶段。例如通过分析专家激活模式，攻击者可推断输入数据的某些统计特征。差分隐私路由虽然能提供理论保障，但在实际部署中往往导致模型性能下降10-15%，这一代价在关键任务场景中仍难以接受。
1.7K10编辑于 2025-08-27
来自专栏智能生信
稀疏混合专家融合是领域泛化的学习者
在这项工作中，作者通过利用分布式处理跨领域预测特征的多个方面，揭示了混合专家（MoE）模型在DG上的可泛化性。为此，作者提出了稀疏融合混合专家模型（SF-MoE），该模型将稀疏性和融合机制结合到MoE框架中，以保持模型的稀疏性和预测性。 SF-MoE有两个专用模块：稀疏块和融合块，分别对对象的不同学习信号进行分离和聚合。大量实验表明，SF-MoE是大规模基准测试领域的可泛化学习者。
51420编辑于 2022-12-29
来自专栏时空探索之旅
Moirai-MoE: 稀疏混合专家赋能时间序列基础模型
频率挑战为了解决上述问题，作者提出了全新的时间序列统一训练解决方案Moirai-MoE，其核心思想是利用单个输入/输出投影层，同时将各种时间序列模式的建模委托给 Transformer层中的稀疏混合专家基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。但其主要改进在于：Moirai-MoE不使用多个启发式定义的输入/输出投影层来对具有不同频率的时间序列进行建模，而是使用单个输入/输出投影层，同时将捕获不同时间序列模式的任务委托给Transformer中的稀疏混合专家稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。零样本上表展示了在零样本预测设定时，Moirai-MoE在10个数据集上的点预测和概率预测的表现。
75400编辑于 2024-11-19
来自专栏月色的自留地
从锅炉工到AI专家(10)
28) timesteps = 28 # timesteps #LSTM网络的参数，隐藏层数量 num_hidden = 128 # hidden layer num of features #最终分为10 类，0-9十个字付 num_classes = 10 # MNIST total classes (0-9 digits) # tf Graph input #训练数据输入，跟MNIST相同 X =
1.1K50发布于 2018-06-20
来自专栏机器之心
可与ViT一较高下，DeepMind从稀疏转向Soft混合专家模型
稀疏混合专家模型（MoE）是一种很有前途的替代方案，可以在计算成本较少的情况下，扩展模型的大小。稀疏 MoE Transformer 有一个关键的离散优化问题：决定每个输入 token 应该使用哪些模块。这些模块通常是称为专家的 MLP。作为对比，稀疏 MoE 方法通常采用的是硬分类。其次 Soft MoE 没有 token dropping 和专家不平衡。因此，Soft MoE 的速度明显要快于大多数稀疏 MoE，具体如下图 6 所示。 Soft MoE 还兼具稀疏和密集的特点。稀疏 MoE 的稀疏性来自于专家参数仅应用于输入 token 的子集。在预训练期间，他们提供了两个指标的评估结果，即 JFT-4B 的上游验证 precision-at-1 和 ImageNet 10-shot 准确率。
35410编辑于 2023-09-08
来自专栏MiningAlgorithms
机器学习10：梯度优化与L正则化稀疏性
在实际应用中，我们随机初始化θ，取h为较小的数（例如10−7），并对 i=1,2,...,n，依次验证： ? 是否成立。此时可以固定θ，减小h为原来的10−1，并再次计算下标i对应的近似误差，若近似误差约减小为原来的10−2，则对应于第一种可能，我们应该采用更小的h重新做一次梯度验证；否则对应于第二种可能，我们应该检查求梯度的代码是否有错误数据的稀疏性导致相应参数的梯度的稀疏性，不频繁出现的词或词组的参数的梯度在大多数情况下为零，从而这些参数被更新的频率很低。 AdaGrad方法采用“历史梯度平方和”来衡量不同参数的梯度的稀疏性，取值越小表明越稀疏，具体的更新公式表示为： ? 5，模型参数的稀疏性与L1正则化：模型参数具有稀疏性有那些优点：稀疏性，说白了就是模型的很多参数是0。
2.5K10发布于 2019-08-08
来自专栏大模型系列
解密 DeepSeek V4：双轴稀疏 MoE + Engram 记忆 + Muon 优化器，如何打造高效万亿模型？
其采用先进的双轴稀疏设计、优化的混合注意力机制、全栈国产化适配等关键技术，构建了一个高效、普惠、安全的大模型生态系统。在推理过程中，通过一个“门控网络”（GatingNetwork）动态选择最合适的专家组合，实现稀疏激活。 2.2双轴稀疏架构（Two-AxisSparsity）DeepSeekV4最核心的创新之一是“双轴稀疏架构”，即在两个维度上同时实现稀疏化：2.2.1专家维度稀疏（ExpertSparsity）专家维度稀疏是通过双轴稀疏架构，DeepSeekV4成功将100万Token上下文的推理计算量压缩至前代模型的个位数百分比，实现了长文本处理的革命性突破。其创新的MoE架构、双轴稀疏设计、混合注意力机制、Engram记忆架构等技术突破，不仅解决了超大规模模型的效率问题，更在长上下文处理、推理性能、成本控制等方面实现了全面领先。
22220编辑于 2026-05-16
来自专栏大模型系列
打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？
DeepSeek-V4的“双轴稀疏架构”正是对这一时代命题的响亮回答。第二章：核心理念——从“单轴”到“双轴”的范式跃迁在DeepSeek-V4之前，主流的稀疏化技术是混合专家（MixtureofExperts,MoE）。 MoE通过为每个输入Token动态选择激活少量“专家”子网络，实现了条件计算（ConditionalComputation），即只在需要时才进行计算。这是一种单轴稀疏，其稀疏性仅体现在“计算”维度上。这构成了其双轴稀疏架构的核心：第一轴：MoE-条件计算：负责动态的、复杂的逻辑推理和创造性任务。第二轴：Engram-条件记忆：负责高效、精准地存储和检索静态的、确定性的事实知识。这场由“双轴稀疏”引发的架构革命，正在深刻地重塑大模型的未来格局。
43220编辑于 2026-04-24
来自专栏技术-汇集区
10个适用于WordPress的最佳时间轴插
您可能要考虑使用时间轴插件。时间轴插件可以帮助观众以生动有趣的视觉方式讲述您的故事。您可以使用它以时间轴的形式按时间顺序显示您的奋斗，成就和里程碑。许多大品牌选择以这种方式展示其业务故事。在本文中，我们将向您介绍最佳的时间轴插件，这些插件可以帮助您创建时间轴，而无需任何编码技能。但是在此之前，让我们检查一下您应该在时间轴插件中寻找的一些功能。 2.时间轴快递时间轴特快是一个免费的时间轴插件，它提供了强大的功能来为您的企业创建动画的垂直时间轴。该插件为您创建的任何时间轴提供了一个简码。 7.时间轴和历史记录滑块时间轴和历史是一个免费的时间轴插件，可让您无需编写任何代码即可将业务历史记录或时间轴添加到WordPress网站。您还可以隐藏或显示时间轴日期，启用或禁用连接器，以及执行更多操作。 10.内容时间表内容时间表是另一个功能强大，轻巧且响应迅速的时间轴插件，它提供了一种以时间轴的形式组织内容的简便方法。
3K00编辑于 2022-01-02
来自专栏ShowMeAI研究中心
数据专家最常使用的 10 大类 Pandas 函数 ⛵
在本篇内容中，ShowMeAI 把这些功能函数总结为10类。熟练掌握它们，你就可以轻松解决80% 以上的数据处理问题。图片 10.分组统计我们经常会需要对数据集进行分组统计操作，常用的函数包括：groupby：创建一个 GroupBy 分组对象，可以基于一列或多列进行分组。
4.8K21编辑于 2022-08-09
来自专栏机器之心
30年历史回顾，Jeff Dean：我们整理了一份「稀疏专家模型」研究综述
稀疏专家模型已成为一种很有前途的解决方案。稀疏专家模型（其中，混合专家系统（MoE）是最流行的变体）是一种特殊的神经网络，其中一组参数被划分为 “专家”，每个“专家” 具有唯一的权重。 10 倍推理提升和 SOTA 翻译性能，从而增加了模型在生产服务中的实用性。 Shazeer et al. (2017) 在 10 亿字语言建模基准（Chelba et al., 2013）上提出了关于模型参数和计算预算的扩展曲线，与密集版本相比取得了显著收益。研究结果如下图 5 所示，虽然较大的密集模型和稀疏模型的校准都得到了改善，但稀疏模型与使用 10 倍以上 FLOP 的密集模型的校准相当。同时课程配有 32 次课后测验、10 次编程练习、10 次大作业，确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。点击阅读原文，了解更多课程内容。
72530编辑于 2022-10-08
来自专栏机器之心
手把手教你，从零开始实现一个稀疏混合专家架构语言模型（MoE）
选自huggingface 机器之心编译机器之心编辑部本文介绍了实现一个稀疏混合专家语言模型（MoE）的方法，详细解释了模型的实施过程，包括采用稀疏混合专家取代传统的前馈神经网络，实现 top-k 内容简介在混合专家模型 Mixtral 发布后，混合专家模型（MoE）越来越受到人们的关注。在稀疏化的混合专家语言模型中，大部分组件都与传统的 transformers 相同。不过，每个区块的结构发生了巨大的变化：标准的前馈神经网络被多个稀疏激活的前馈网络（即专家网络）所取代。所谓「稀疏激活」，是指序列中的每个 token 只被分配给有限数量的专家（通常是一个或两个）。这个过程的关键和难点是避免不必要的乘法运算，只为前 k 名专家进行正向转播。为每个专家执行前向传播将破坏使用稀疏 MoE 的目的，因为这个过程将不再是稀疏的。索引确定了被激活的专家是哪些，对应的值又决定了权重大小。下图进一步解释了加权求和的概念。模块整合将多头自注意力和稀疏混合专家相结合，形成稀疏混合专家 transformer 块。
2.8K11编辑于 2024-02-26
来自专栏AI SPPECH
IO竞赛2025年题目解析：专家级难度（10）
IO竞赛2025年题目解析：专家级难度（10）引言专家级难度（难度系数10）的IO竞赛题目是竞赛中的终极挑战，代表了当前算法和程序设计的最高水平。难度金字塔: 入门(1-3) → 基础(4-5) → 中级(6-7) → 高级(8-9) → 专家(10) 难度系数考察重点核心知识点学习目标 10 创新思维、综合应用、复杂算法设计前沿算法、高级数据结构、跨领域知识融合、优化理论具备独立解决世界级难题的能力，能够创新算法目录目录 ├── 第一章：2025年IO竞赛专家级难度题目概述 ├── 第二章：专家级难度题目解析（10题） ├── 第三章：专家级问题的思维训练方法 ├── 第四章：算法创新与优化策略 └── 第五章：走向国际赛场的准备第一章：2025年IO竞赛专家级难度题目概述 2025年IO竞赛专家级难度（难度系数10）的题目具有以下特点专家级题目类型分布: 高级算法创新 → 25% 跨领域知识融合 → 20% 复杂数学建模 → 20% 高级数据结构设计 → 15% 优化理论应用 → 10% 其他 → 10% 第二章：专家级难度题目解析
25110编辑于 2025-11-13
来自专栏一臻AI
DeepSeek绘制时间轴的10个神级提示词
一条优秀的时间轴，可以直接让复杂的历程变得清晰可见。今天要分享的这10个时间轴设计，不仅仅是视觉上的享受，更是让你的内容脱颖而出的秘密武器。 DeepSeek绘制时间轴的10个神级提示词 1. 星际旅行路线图 [场景介绍]设计一条模拟星际轨道的曲线时间轴，节点如同行星，背景点缀星空元素，适合创意历程展示。以HTML格式输出。霓虹脉动时间轴 [场景介绍]创建一个带有霓虹蓝紫色发光效果的暗色背景时间轴，节点处添加脉动光效，适合科技企业发展历程展示。以HTML格式输出。数字流光时间轴 [场景介绍]创建一个带有数据流动动效的垂直时间轴，使用蓝绿渐变色彩，节点处显示关键数据可视化。以HTML格式输出。 5. 全息投影历史线 [场景介绍]创建模拟全息投影效果的时间轴，使用半透明蓝色界面，节点可展开全息详情，适合未来感展示。以HTML格式输出。 10.
59310编辑于 2025-04-18
来自专栏大模型系列
国产大模型杀疯了！DeepSeek V4 开源 1.6 万亿 MoE，推理成本仅 GPT-4 的 1/70
2.1MoE基础：稀疏激活的魔法混合专家（MixtureofExperts,MoE）的核心思想是“千军万马，只调精锐”。 2.2双轴稀疏架构：DeepSeekV4的独门绝技DeepSeekV4在传统MoE基础上，创新性地提出“双轴稀疏”（Two-AxisSparsity）：（1）专家轴稀疏（ExpertSparsity）动态路由（2）注意力轴稀疏（AttentionSparsity）CSA（CompressedSparseAttention）：结合局部窗口与全局采样，降低O(n²)复杂度；HCA（HierarchicalContextAttention ）：按语义层级（句子→段落→章节）构建注意力，提升长文本理解；动态稀疏调度：根据内容重要性自动调整稀疏度，关键信息不丢失。双轴协同，使得100万Token上下文的内存占用和计算量压缩至前代模型的10%以下。2.3Engram记忆架构：让模型“记得住”处理超长文本的最大挑战是信息衰减——早期内容在深层网络中逐渐被遗忘。
31820编辑于 2026-05-16
来自专栏AustinDatabases
MONGODB 性能优化 10 个TIPS 来自超级专家的经验
偶然看到一个视频，关于mongodb 的 10 erformance tuning TIPS ，介绍这与下面的三位是同时期的IT 工作者，下面图中的三位就没有必要介绍了，都是 big potato 下面就进入主题， 10 TIPS with MONGODB performance. 这里他列出了以下10个TIPS 关于mongodb 的优化方面的意见，我们下面一个一个过。但他强调第一种方式是最糟糕的 idea 10 shard only if you must 这里他强调了一个问题，在不同的角度，通过hash shard, rage shard 在每种场景下，如聚合以上就是 10 TIPS OF MONGODB 的大致内容，介绍的比较笼统，但如果从每一个点进入，在去深入的研究，相信会有很多的收获，师傅领进门，修行在个人。
2.5K20编辑于 2022-02-09
来自专栏机器之心
为内存塞不下Transformer犯愁？OpenAI应用AI研究负责人写了份指南
(1) 对矩阵中的列进行排列可以在剪枝过程中提供更多可能，以保持参数的数量或满足特殊限制，如 N:M 稀疏性。只要两个矩阵对应的轴按相同的顺序排列，矩阵乘法的结果就不会改变。 Q（轴 1）和 K^⊤（轴 0）上相同排列，自注意力模块的结果不变。 W_1（轴 1）和 W_2（轴 0）上有着相同的排列，可以保持 FFN 层的输出不变。为简单起见，图示省略了偏差项，但也应对它们应用相同的排列。图 10. STE 和 SR-STE 的对比。⊙的比较是元素乘积；⊗是矩阵乘法。原文链接：https://lilianweng.github.io/posts/2023-01-10-inference-optimization/ © THE END 转载请联系本公众号获得授权
2.5K30编辑于 2023-03-29
来自专栏AI科技大本营的专栏
Python的10个“秘籍”，这些技术专家全都告诉你了
本次活动邀请10余位身处一线的Python技术专家，聚焦Web开发、数据分析、人工智能等技术模块，全方位探讨他们对真实生产环境中使用Python应对IT挑战的真知灼见，并与在座的数百位学生、开发者等业内同行进行了深入交流下面我们就来一起回顾下这10位身处一线的技术专家在活动首日所做的精彩分享。阿里巴巴技术专家杨群：基于Python特性带来的好处，数据分析是第一位的杨群以《高并发场景下的Python的性能挑战》主题做了演讲。阿里巴巴技术专家秦续业：Numpy已经变成了一个生态，很多Python数据包都依赖于Numpy。秦续业带来了以《用Mars并行和分布式执行Numpy》为题的演讲。
90820发布于 2019-05-06
来自专栏机器人网
推荐：10本好书，让你成为机器学习领域的专家
机器学习是个跨领域的学科，而且在实际应用中有巨大作用，但是没有一本书能让你成为机器学习的专家。在这篇文章中，我挑选了 10 本书，这些书有不同的风格，主题也不尽相同，出版时间也不一样。因此，无论你是新手还是领域专家，一定能找到适合你的。新手的最佳读物 ? 这本书绝对是初学者非常期待的入门书。这本书条理清晰，学习成本低，因此我把它列为新手的最佳读物。这并不是说你要成为一个编程方面的专家，但如果你从来没有写代码(或者写的不太好)，那么你可能在学习的过程中遇到很多困难。总的来说，这本书偏重技术，但是也不是专门为 python 专家写的。如果你对 python 语言很熟悉，最好还了解 scikit-learn，那么这本书一定很适合你。数据科学从零开始 ? 这 10 本书是我精心挑选的，它们涵盖了很宽泛的领域。如果你想更好的理解机器学习或者解决项目中的问题，你需要根据你的实际情况选择最适合你的书，因为它们值得拥有。
1.1K80发布于 2018-04-25
来自专栏【腾讯云开发者】
腾讯专家10年沉淀：后海量时代的架构设计
欢迎往下阅读，和腾讯后台技术专家吕远方一起聊架构设计！监控统计效果如下：当时遇到一个问题，开发者监控到的某个 mod、cmd 接口的异常率高达 10+%，开发者看到的是 PDUBrige 到 L5 的异常率，而对方看的是 L5 到 B 之间的异常率，
3.5K31编辑于 2023-04-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

深度学习前沿：稀疏专家模型（MoE）门控机制的探索

稀疏混合专家融合是领域泛化的学习者

Moirai-MoE: 稀疏混合专家赋能时间序列基础模型

从锅炉工到AI专家(10)

可与ViT一较高下，DeepMind从稀疏转向Soft混合专家模型

机器学习10：梯度优化与L正则化稀疏性

解密 DeepSeek V4：双轴稀疏 MoE + Engram 记忆 + Muon 优化器，如何打造高效万亿模型？

打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？

10个适用于WordPress的最佳时间轴插

数据专家最常使用的 10 大类 Pandas 函数 ⛵

30年历史回顾，Jeff Dean：我们整理了一份「稀疏专家模型」研究综述

手把手教你，从零开始实现一个稀疏混合专家架构语言模型（MoE）

IO竞赛2025年题目解析：专家级难度（10）

DeepSeek绘制时间轴的10个神级提示词

国产大模型杀疯了！DeepSeek V4 开源 1.6 万亿 MoE，推理成本仅 GPT-4 的 1/70

MONGODB 性能优化 10 个TIPS 来自超级专家的经验

为内存塞不下Transformer犯愁？OpenAI应用AI研究负责人写了份指南

Python的10个“秘籍”，这些技术专家全都告诉你了

推荐：10本好书，让你成为机器学习领域的专家

腾讯专家10年沉淀：后海量时代的架构设计

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐