首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >softmax函数为什么?

softmax函数为什么?
EN

Data Science用户
提问于 2021-08-05 03:30:22
回答 1查看 136关注 0票数 1

我们知道,Softmax通常应用于具有e^{a}\over \sum e^{a}功能的多类标签。

我的问题是,像a^{2} \over \sum a^{2}这样的函数大多也能工作吗?如果没有,为什么?

这里是最后一次激活的立场输出。

EN

回答 1

Data Science用户

发布于 2021-08-05 10:08:48

与您建议的替代方案不同,softmax的优点是,在日志丢失时,幂运算效果很好,如第6.2.2节.“深度学习书”中所述:

其目的是定义一个输出值的激活函数。

...介于0到1之间,...是对数的对数,在基于梯度的对数似然优化中表现得很好。

和,

与逻辑乙状结肠一样,当训练softmax使用最大对数似然输出目标值y时,exp函数的使用效果很好。在这种情况下,我们希望最大限度地利用\log P(y=i;z) =\log softmax(z)_i。从exp的角度来看,搜索软极值是很自然的,因为日志似然可以撤消softmax ...的exp。

不利之处在于

许多非对数似然的目标函数都不适用于softmax函数。Specifi--不使用日志来撤销软件最大值的实例的目标函数,在对exp的参数变得非常负时无法学习,从而导致梯度消失。特别是,对于softmax单元来说,平方误差是一个很差的损失函数,即使该模型对...进行了高精度的fi错误预测,也可能无法训练该模型来改变其输出。

要了解更多细节,我建议阅读这本书的链接部分。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/99719

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档