我们知道,Softmax通常应用于具有e^{a}\over \sum e^{a}功能的多类标签。
我的问题是,像a^{2} \over \sum a^{2}这样的函数大多也能工作吗?如果没有,为什么?
这里是最后一次激活的立场输出。
发布于 2021-08-05 10:08:48
与您建议的替代方案不同,softmax的优点是,在日志丢失时,幂运算效果很好,如第6.2.2节.“深度学习书”中所述:
其目的是定义一个输出值的激活函数。
...介于0到1之间,...是对数的对数,在基于梯度的对数似然优化中表现得很好。
和,
与逻辑乙状结肠一样,当训练softmax使用最大对数似然输出目标值y时,exp函数的使用效果很好。在这种情况下,我们希望最大限度地利用\log P(y=i;z) =\log softmax(z)_i。从exp的角度来看,搜索软极值是很自然的,因为日志似然可以撤消softmax ...的exp。
不利之处在于
许多非对数似然的目标函数都不适用于softmax函数。Specifi--不使用日志来撤销软件最大值的实例的目标函数,在对exp的参数变得非常负时无法学习,从而导致梯度消失。特别是,对于softmax单元来说,平方误差是一个很差的损失函数,即使该模型对...进行了高精度的fi错误预测,也可能无法训练该模型来改变其输出。
要了解更多细节,我建议阅读这本书的链接部分。
https://datascience.stackexchange.com/questions/99719
复制相似问题