在http://neuralnetworksanddeeplearning.com/chap3.html中
作者解释说,对于神经网络中的单个神经元,选择代价函数作为交叉熵,可以消除激活函数在梯度项中的导数,如果激活函数是sigmoid函数的话。
在问题中,他问为什么我们不能消除成本函数梯度中关于权值的神经元项x的输入。
我有以下的推理,为了计算成本梯度,我们使用链规则,导出了关于激活的成本,关于(w *x+ b)的激活,以及与权重的和。
对于权Wi,(和w*x+ b) w.r.to Wi的导数总是xi,而激活函数的导数不知道这一点,所以它不可能消除Xi,除非它为零。
或者还有其他微妙的推理吗?
发布于 2017-04-14 16:08:40
主要原因是链规则隐藏在你的理由中。实际上,内部函数是线性的w.r.t权值,然后导数w.r.t权值总是被输入到x中,这一事实将位于\dfrac{\partial C}{\partial w}.的某个位置。
https://datascience.stackexchange.com/questions/18349
复制相似问题