首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏量子位

    新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

    Transformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! Mamba-2:更强学习能力,更快训练推理 基于SSD思想的新算法,Mamba-2支持更大的状态维度(从16扩大到256),从而学习更强的表示能力。 架构设计上,Mamba-2简化了块的设计,同时受注意力启发做出一些改动,借鉴多头注意力创建了多输入SSM。 Mamba-2的SSD层比Mamba-1中的关联扫描快很多,使团队能够增加状态维度并提高模型质量。 发现4-6个注意力层与Mamba-2层混合模型的性能,甚至优于Transformer++(原版结构+现代最佳实践)和纯Mamba-2

    76610编辑于 2024-06-04
  • 来自专栏人工智能前沿讲习

    【源头活水】再战Transformer!Mamba 2来了,新架构训练效率大幅提升!!!

    基于这些发现,研究者将 4-6 个注意力层与 Mamba-2 层混合,其表现优于 Transformer++ 和纯 Mamba-2,因而得出注意力和 SSM 是互补的。 这一联系是 Mamba-2 框架的核心,揭示了状态空间模型的新属性和算法。 研究者还在 Pile 数据集上训练了一系列 Mamba-2 模型,结果显示 Mamba-2 在标准下游评估中匹配或超过 Mamba 和开源的 Transformers。 Mamba-2 在网络架构上的主要变化是从顺序生成变为并行生成 SSM 参数,并且 Mamba-2 更适合张量并行等扩展方法。 下表显示了 Mamba-2 在一系列下游零样本评估任务上的性能:

    49810编辑于 2024-06-18
  • Mamba-3震撼登场!Transformer最强挑战者再进化,已进入ICLR 2026盲审

    Mamba-2:对偶加速的理论飞跃Mamba-2通过结构化状态空间对偶(SSD)理论,揭示了SSM与注意力机制在数学上的等价性。 这一理论突破使得Mamba-2在GPU上的推理速度比前代提升了2-8倍,同时保持了与Transformer相当的建模能力。然而,Mamba-2在复杂状态追踪任务上仍存在局限,其状态演化模式相对单一。 梯形离散化:更精确的状态更新Mamba-3采用广义梯形法则进行离散化,相比Mamba-2使用的欧拉方法,提供了二阶精度的近似。 实验证明,这一改进让Mamba-3能够解决奇偶校验、模运算等Mamba-2无法处理的任务。 在大海捞针(NIAH)测试中,Mamba-3在4096长度上下文中的检索准确率显著高于Mamba-2,展现出出色的长程信息保持能力。

    69310编辑于 2025-10-20
  • 来自专栏DeepHub IMBA

    Mamba-2发布状态空间扩大8倍,训练速度提高50%,提出结构化状态空间二元性的理论将Transformer和SSM进行统一

    Mamba-2最新发布,其研究成果在顶级学术会议ICML 2024上被正式接收,标志着在深度学习序列模型领域的一个重要进展。 在长序列数据处理方面,Mamba-2不仅保持了高准确性,而且显著提高了计算效率,这证明了其在处理复杂数据结构时的高效能。 总体而言,Mamba-2模型在技术层面带来的创新不仅体现在其理论框架的突破上,更在于具体的模型优化和计算架构调整。 这种深度的理论融合使得Mamba-2能够在维持高效率的同时,显著提升处理长序列数据的能力。 这些技术进步预示着Mamba-2将在未来的AI发展中,尤其是在需求苛刻的应用场景中,发挥关键作用。

    79210编辑于 2024-06-17
  • 来自专栏新智元

    Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

    这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transformer和SSM直接成了「一家亲」,Mamba-2这是要一统江湖了? ——Mamba-2大有一统江湖之势。 论文中,研究人员主要讨论了两种设计选择,最终形成Mamba-2架构。 首先是,块设计。 1. 并行参数映射 在Mamba-2中,SSD层被视为从, , , → 的映射。 即使在性能相当的情况下,Mamba-2的训练速度也比初代Mamba快得多! 合成语言建模:MQAR 更有趣的是,研究者针对Mamba-2再次尝试了一项合成任务。 这也是Mamba-2的设计初衷之一 另外,即便是在控制状态大小的情况下,Mamba-2在这一特定任务上的表现也明显优于Mamba-1。

    94220编辑于 2024-06-05
  • 来自专栏人工智能前沿讲习

    【他山之石】Mamba真比Transformer更优吗?Mamba作者:混合架构才是最优解!

    为了方便复现和进一步研究,用于训练Mamba、Mamba-2和Mamba-2-Hybrid的代码已经开源,而且研究团队还在HuggingFace上发布了Mamba-2 8B和Mamba-2-Hybrid 在常见任务上,Mamba和Mamba-2的性能都可以匹配甚至超过Transformer模型,但MMLU基准是一个例外。 进行零样本或少样本学习时,Mamba-2相比Transformer分别有10分和17分的差距。 因为在1.1T数据集上Mamba模型的训练速度就已经比Mamba-2慢了将近3×(模型的状态维度较大),出于效率方面的考量,在3.5T数据集上只训练了Mamba-2模型和Transormer模型,部分结果如表 56层的Mamba-2-Hybrid中包含4个(7.1%)自注意力层,24 个(42.9%)Mamba-2层和28个(50%)MLP 层,其中Mamba-2层使用与Mamba-2模型相同的参数。

    1.6K10编辑于 2024-07-16
  • 来自专栏机器之心

    再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

    基于这些发现,研究者将 4-6 个注意力层与 Mamba-2 层混合,其表现优于 Transformer++ 和纯 Mamba-2,因而得出注意力和 SSM 是互补的。 这一联系是 Mamba-2 框架的核心,揭示了状态空间模型的新属性和算法。 将修改后的并行 Mamba 块与作为内部 SSM 层的 SSD 结合使用,形成了 Mamba-2 架构。 研究者还在 Pile 数据集上训练了一系列 Mamba-2 模型,结果显示 Mamba-2 在标准下游评估中匹配或超过 Mamba 和开源的 Transformers。 Mamba-2 在网络架构上的主要变化是从顺序生成变为并行生成 SSM 参数,并且 Mamba-2 更适合张量并行等扩展方法。

    98210编辑于 2024-06-04
  • 来自专栏人工智能前沿讲习

    【他山之石】Mamba 2模型携SSD算法,让长序列处理更高效,一举解决AI大模型的效率痛点!

    实验结果显示,经过Mamba-2架构训练的模型,在Pile数据集上的表现令人瞩目。 模型,证明了Mamba-2在序列模型设计与优化中的强大潜力。 Mamba-2的核心创新在于其新的SSD层,这是选择性SSM的一种特例。与Mamba相比,Mamba-2在表达能力上略有下降,但在训练效率上却有了显著提升。 Mamba-2的网络架构从顺序生成SSM参数转变为并行生成,这使得Mamba-2更加适合张量并行等扩展方法。 研究团队还揭示了理解和使用状态空间模型的新方法,通过提供状态空间模型的显式矩阵变换形式。 张量并行优化在Mamba-2模型中的应用 研究者们对Mamba-2模型中的张量并行进行了优化,显著提升了训练效率。

    2K10编辑于 2024-06-06
  • 来自专栏新智元

    算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

    作为应用示例,研究人员展示了如何基于该框架构建Mamba-2和Gated DeltaNet的对数线性版本。 他们将得到的模型称为对数线性Mamba-2和对数线性门控DeltaNet。 图4中,「Log-Linear Mamba-2 (naive)」表示简单地重复使用现有的Mamba-2计算方法; 而「Log-Linear Mamba-2」」则采用了一种经过优化的自定义实现方式,其中包括层级融合 结果发现,对数线性Mamba-2在大约一半任务(SQuAD、TriviaQA和NQ)上有所改进。 结果显示,对数线性Mamba-2和门控DeltaNet在14个评估任务中的8个上均优于基线Mamba-2和门控DeltaNet。

    37810编辑于 2025-06-09
  • 来自专栏新智元

    不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞

    语言建模可能无法反映下游能力,上图给出了Mamba-2(在8K上下文窗口上训练)在密钥检索任务上的评估结果。 我们可以发现,Mamba-2在8K上下文中具有近乎完美的检索准确性,但在序列长度超过16K后就没法看了,无论模型参数量大小。 研究人员训练了多个具有不同状态大小和训练长度的Mamba-2,并将SC未发生的最小训练长度视为状态容量。 实验结果 上图展示了在Mamba-2 780M上无训练长度泛化方法的结果。 上图显示了Mamba-2在语言建模和密钥检索方面的状态容量。两个图中最右边的数据点对应于Mamba-2 370M。

    25010编辑于 2025-02-15
  • 来自专栏新智元

    Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

    Nemotron-H架构 Nemotron-H模型由Mamba-2、自注意力层和前馈神经网络(FFN)层组成,其中总层数的8%为自注意力层,均匀分布在模型中。 即,Nemotron-H-8B模型包含52层,其中4层为注意力层;Nemotron-H-56B模型包含118层,其中10层为注意力层,其余层平均分配为FFN层和Mamba-2层。 为了与标准Transformer模块的结构一致,研究人员提出三条设计准则:模型的第一层必须是Mamba-2层,最后一层必须是FFN层,并且自注意力层总是位于FFN层之前。 论文链接:https://arxiv.org/pdf/2312.00752 Mamba-2架构 Mamba-2结合了状态空间模型(SSMs)和注意力机制,基于State Space Duality (SSD 在实验中,Mamba-2在语言建模和多查询关联回忆任务上均优于Mamba和基于注意力的模型。

    39610编辑于 2025-04-22
  • 来自专栏机器之心

    SSM 能取代 Transformer 搞出更「牛」的大模型吗?

    结合了注意力机制和 SSM 的 Mamba-2 架构效果如何?近期还有哪些挖掘 Transformer 潜力的新研究有必要了解一下?... 2. 从「开城」到「无图」:大模型砸下来的钱好赚吗? 4、Mamba 的原班人马在近期 Mamba-2 的论文中,通过提出结构化状态空间对偶性(SSD)的理论框架,证明了 Transfomer 和 SSM 在数学层面上存在极为紧密的联系。 ③ 该工作还发现,结合了 4-6 个注意力层的 Mamba-2 在表现上可以更优,从而验证了注意力和 SSM 确实可以互补。 图:SSD 框架(红、蓝)介绍。 1、Mamba-2 论文的重点在于结构化状态空间对偶性(SSD,也称选择性 SSM),它代表着: ① SSD 模型(model)指可以纳入深度神经网络(如注意力机制或 SSM)的特定独立层 ② SSD ③ 体而言,SSD 模型可以看作是一个 1-SS SMA, 7、基于 SSD 框架设计的 Mamba-2 架构比初代 Mamba 支持更大的状态维度(从 16 扩展到 256+),且具备更快的训练速度。

    1K10编辑于 2024-06-17
  • 来自专栏AiCharm

    每日学术速递2.20

    第二阶段(Stage-2):进一步训练所有Mamba-2参数,以更好地对齐学生Mamba-2层与教师Transformer层的行为。 第三阶段(Stage-3):对整个模型进行端到端蒸馏,通过词级KL散度损失对齐学生Mamba-2与教师Transformer的输出。 3. mmMamba-hybrid:在每固定数量的连续层中,保留第一层为Transformer,其余层转换为Mamba-2。 实验设置: 训练阶段:比较直接从 Transformer 转换到 Mamba-2 而不进行蒸馏训练的结果,以及逐步添加三个蒸馏阶段后的结果。 架构设计: mmMamba-linear:将所有 Transformer 层转换为 Mamba-2 层,实现完全线性复杂度。

    54400编辑于 2025-02-21
  • IBM Granite 4.0小语言模型登陆Replicate平台

    in business environments" } ] })Granite的高性能表现Granite模型围绕一种混合设计构建,该设计结合了两个关键思想:Mamba Mamba-2是一种状态空间模型,可以线性地处理序列,这与传统Transformer随序列长度呈二次方扩展不同。这使得它在处理极长输入(例如包含数十万token的文档)时效率更高。

    9310编辑于 2026-02-19
  • 来自专栏机器之心

    Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限

    事实也确实如此,举例来说,下图为 Mamba-2 检查点在不同序列位置上的性能变化(以困惑度 Perplexity 衡量,数值越低代表性能越好)。 实际上,下图展示了 Mamba-2 的状态范数随时间显著增加: 这就解释了为什么循环模型无法实现长度泛化:当处理超过训练长度的序列时,模型会遇到在训练过程中从未接触过的状态 h_t,因此模型并没有学会如何处理这些状态 下图展示了 Mamba-2 模型经过 500 步(约预训练总步数的 0.1%)后训练后,在不同干预措施下的结果: 核心发现 1:SP 与 TBTT 机制可实现长度泛化。 下图展示了 Mamba-2 370M 和 780M 官方检查点在三种设置下的表现:零样本、常规微调和使用拟合噪声进行微调。 下图展示了对于两个官方的 Mamba-2 检查点(它们无法进行长度泛化),在不同的 t 和 T=8192(训练上下文的四倍)下的 : 尽管每个 token 都会对模型的输出产生影响,但从直觉上我们会期望最近的

    14200编辑于 2025-07-09
  • 来自专栏未来先知

    MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !

    这使得Mamba-2能够利用GPU上的高度优化的矩阵乘法单元,从而相较于Mamba-1基于扫描的实现方式显著提高了速度。 虽然Mamba-2在自回归任务中表现出色,但其底层的SSM框架本质上是以因果方式运行的,这限制了它在非因果场景中的应用。 Hydra(Hwang等人,2024)通过利用拟可分离矩阵混合器来解决这一问题,这些混合器将Mamba-2中发现的半可分离矩阵混合器推广到同时包括下三角和上三角部分。 为了简化讨论,在本文后续部分提及Hydra块时,作者使用Mamba来指代,因为Hydra采用了与Mamba-2相同的块结构和SSM公式。 SSM 内部函数。 在 Mamba-2 中,作者发现通过在多个通道之间共享一个离散化因子来捆绑它们可以降低计算复杂度,同时保留类似的表达能力。

    1.1K10编辑于 2025-04-16
  • 来自专栏AI科技评论

    OpenAI奥特曼投资400多家公司,持股28亿美元;承认抄袭!斯坦福最终回应;黄仁勋称下一波AI浪潮是物理AI丨AI情报局

    新架构Mamba更新二代,Transformer和SSM统一了: 新一代序列建模架构Mamba-2正式发布,并已入选ICML 2024。 Mamba-2在状态空间扩大8倍的同时,训练速度提升了50%。 此外,3B参数规模的Mamba-2在300B tokens训练中超越了同等规模的Mamba-1和Transformer,显示出在需要更大状态容量的任务上的显著改进。

    35610编辑于 2024-06-17
  • 来自专栏AI智韵

    Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(一)

    通过结合修改后的并行Mamba块以及使用SSD作为内部SSM层,我们得到了Mamba-2架构。 此外,我们还在Pile上训练了不同大小的Mamba-2模型家族,表明它在标准下游评估中匹配或超越了Mamba和开源Transformer。 我们设计了Mamba-2以使其支持TP,从而将每个块的同步点数量减少了一半。 对于激活不适合单个设备的非常长的序列,已经为注意力块开发了序列并行性。 我们描述了如何通过在不同设备之间传递循环状态来训练SSM,特别是Mamba-2,以实现序列并行性。 我们展示了Mamba-2如何能够高效地以可变序列长度进行训练,而无需填充令牌。

    79810编辑于 2024-10-22
  • AI日报 - 2025年3月19日

    undefined 模型支持256K上下文窗口,推理成本$2.5/M tokens️ 二、技术前沿 (Tech Radar)2.1 VAMBA混合架构模型⌛ 技术成熟度:初步应用 ● 核心创新点: ▸ Mamba

    38820编辑于 2025-03-19
  • 来自专栏AgenticAI

    每日HuggingFace Top20热门大模型(0824)

    该模型采用混合架构,结合 Mamba-2 和 MLP 层,并使用 Megatron-LM 和 NeMo-RL 进行训练。模型支持多语言,包括英语、德语、西班牙语、法语、意大利语和日语。

    96310编辑于 2025-08-25
领券