残差块的权重矩阵是否已经设置为0,或者我们需要将残差块的权重矩阵训练为接近0?在什么情况下,我们通过残差块的权重矩阵进行反向传播?我们什么时候跳过反向传播来选择替代路由呢?
发布于 2020-01-20 16:58:37
反向传播通过两条路径发生,如果你有一个连接它正上方的块B的拼接层和一个连接为残差的层A,A的梯度将来自连接层和A之后的层。这样的跳过连接是为了对抗深层网络中逐渐消失的梯度(反向传播的梯度随着穿过更多的层而变得更小)。
https://stackoverflow.com/questions/59818959
复制相似问题