今天的大模型动辄拥有上千亿参数，架构复杂如迷宫。 但如果你掀开 Transformer 的最后一层，会发现一个熟悉的身影：

这个早在 1950 年代就用于多分类问题的函数，

为何在 2020 年代的大模型中依然无处不在

📊 一、Softmax 的起点：多分类的概率解释

将任意实数向量转化为概率分布

假设模型输出 logits 向量 z = [2.1, -0.5, 1.3]，代表三个类别的“原始得分”。 直接比较大小可以分类，但无法回答：

这让模型不仅能“选一个”，还能“说出每个选项的可能性”。

🔁 二、与交叉熵的完美配合：梯度友好的设计

Softmax 之所以成为标配，还因为它与

对于真实标签 y（one-hot 向量），损失为：  

即使今天，这种“干净的梯度”仍有助于训练稳定。

👁️ 三、Softmax 在注意力机制中的角色：软选择 vs 硬选择

2017 年，Transformer 将 Softmax 用在了一个全新场景：

 是 query 与每个 key 的相似度得分（logits）。 

Softmax 将这些得分转化为加权平均的权重

正是这种“温柔的聚焦”，让模型能同时关注“主语”“谓语”“宾语”，而非孤注一掷。

⚖️ 四、争议与替代：Softmax 真的是最优解吗？

尽管主流仍在用 Softmax，但它并非完美：

因此，学界提出了多种替代方案：

🧠 五、更深层：Softmax 是“最大熵原则”的体现

从信息论角度看，Softmax 还有一个优雅解释：

它在满足“高分项应更大概率被选中”的前提下，保留了最多的不确定性（信息）

这与人类认知高度一致——我们做判断时，也会在“倾向性”和“开放性”之间权衡。

✅ 总结：为什么大模型离不开 Softmax？

为什么大模型还在用 Softmax？从概率归一化到注意力机制的底层逻辑

在所有神经网络组件中，Softmax 可能是最“老派”的一个——但它却是大模型理解“重要性”和“选择”的数学语言。

人工智能

算法

编程语言

Softmax函数在AI大模型中扮演关键角色，将logits转化为概率分布，支持多分类和注意力机制。它与交叉熵完美配合，提供简洁梯度，实现软选择而非硬决策。尽管存在计算开销和过度自信问题，但其概率解释、数值稳定性和最大熵特性使其难以替代。Softmax的持久价值在于归一化、可微分和保留相对重要性的平衡，成为现代AI架构不可或缺的核心组件。

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云AI代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

功能1上新10个字符

功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符。

功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符。

功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符

功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符

功能4上新

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

精选全网热门MCP server，让你的AI更好用 🚀

💥开发者 MCP广场重磅上线！

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

Softmax函数在AI大模型中扮演关键角色，将logits转化为概率分布，支持多分类和注意力机制。它与交叉熵完美配合，提供简洁梯度，实现软选择而非硬决策。尽管存在计算开销和过度自信问题，但其概率解释、数值稳定性和最大熵特性使其难以替代。Softmax的持久价值在于归一化、可微分和保留相对重要性的平衡，成为现代AI架构...

为什么大模型还在用 Softmax？从概率归一化到注意力机制的底层逻辑

为什么大模型还在用 Softmax？从概率归一化到注意力机制的底层逻辑

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐