ReLU用作一个激活函数,用于两个目的:
对于爆炸梯度问题,我们采用梯度裁剪方法,其中我们设置了梯度的最大阈值极限,类似于ReLU设置最小梯度极限为0。
到目前为止,我读到,ReLU被认为是一个激活函数。以类似的方式,我们也可以使用梯度剪裁作为激活函数吗?如果是的话,是否有使用它的利弊?
发布于 2020-02-26 16:31:23
ReLU被认为是一个激活函数,以类似的方式,我们可以使用梯度剪裁也作为一个激活函数吗?
ReLU是一个激活函数。梯度裁剪是一种防止爆炸梯度问题的技术。
我还想强调,控制消失/爆炸梯度的最佳技术是,目前的批量归一化。辍学(一种为对抗过度拟合而产生的技术)也具有类似的正则化效果--迫使模型在层中更均匀地分配权重。这就是为什么你不会像以前那样经常看到梯度剪裁。
编辑:
我忘了提到,适当的变量缩放和适当的权值初始化使得消失/爆炸梯度的问题不是很频繁。当然,这完全是基于个人的经验。考虑到这一点还是很重要的
https://datascience.stackexchange.com/questions/68733
复制相似问题