我一直在关注安德鲁吴在神经网络上的视频。在这些视频中,他不把偏见与每一个神经元联系起来。相反,在计算了每一层的激活后,他在每一层的顶端都添加了一个偏置单元,并利用这种偏差以及计算来计算下一层的激活(正向传播)。
然而,在机器学习的其他一些博客和像这这样的视频中,每个神经元都有一种偏见。这是什么和为什么不同,它的含义是什么?
发布于 2016-05-12 22:08:00
这两种方法都代表着相同的偏见概念。对于每个单元(不包括输入节点),您计算了权值和激活的点乘积的激活函数值(在前馈网络情况下)向量加上标量偏差值:
(w * a) + b在Andrew中,这个值是使用矢量化技巧计算的,在这种方法中,你用指定的偏置常数(通常是1)连接你的激活,这就完成了任务(因为这个常数对于不同的节点有它自己的权重,所以这和每个节点有另一个偏置值完全一样)。
发布于 2020-07-06 21:16:17
“关于这两者之间的差异,”马辛回答得很好。
有趣的是,在deeplearning.ai的深度学习专业中,安德鲁采取了与他的机器学习课程不同的方法(在机器学习课程中,他为每个隐藏层取了一个偏倚项),并将一个偏倚项与每个相关的神经元关联起来。
虽然这两种方法都试图取得相同的结果,但在我看来,将偏见与每个神经元联系起来的方法更加明确,并且对超参数调整有很大的帮助,特别是在处理大型神经网络结构(如CNN、深度神经网络等)时。
https://stackoverflow.com/questions/37193305
复制相似问题