为什么在最后一层采用softmax来解决多类分类问题?例如,矢量1,.5的最大软件
是.621,.379
我的意思是,如果我们只取直线比,它就会给我.667,.333
这真的有区别吗?
它是因为向量可以有负数,所以我们的软件最大的东西?我们用一种更奇怪的方法给某些数字提供比率/概率,而不是仅仅取数字的比率,我们能得到什么好处?
发布于 2019-03-05 09:24:22
该比率没有考虑到最后一层可能有负面结果这一事实,在这种情况下,比率不起作用,而softmax则起作用。另一个角落的情况是,如果分母的比率是零。
此外,softmax还有两个有趣的特性:
max而不是softmax (请注意,max是不可微的,因此不能使用)。softmax层的分类问题中,损失函数是具有形式- y * log(y_hat)的交叉熵。事实证明,log of softmax非常容易计算,因为log(a/b)是log(a) - log(b),log(exp(x))是简单的x。这使得softmax更受欢迎。https://datascience.stackexchange.com/questions/46683
复制相似问题