问消失梯度与爆炸梯度作为激活函数？
EN

Data Science用户

提问于 2020-02-26 13:03:00

回答 1查看 237关注 0票数 2

ReLU用作一个激活函数，用于两个目的：

对于爆炸梯度问题，我们采用梯度裁剪方法，其中我们设置了梯度的最大阈值极限，类似于ReLU设置最小梯度极限为0。

到目前为止，我读到，ReLU被认为是一个激活函数。以类似的方式，我们也可以使用梯度剪裁作为激活函数吗？如果是的话，是否有使用它的利弊？

发布于 2020-02-26 16:31:23

ReLU被认为是一个激活函数，以类似的方式，我们可以使用梯度剪裁也作为一个激活函数吗？

ReLU是一个激活函数。梯度裁剪是一种防止爆炸梯度问题的技术。

我还想强调，控制消失/爆炸梯度的最佳技术是，目前的批量归一化。辍学(一种为对抗过度拟合而产生的技术)也具有类似的正则化效果--迫使模型在层中更均匀地分配权重。这就是为什么你不会像以前那样经常看到梯度剪裁。

编辑：

我忘了提到，适当的变量缩放和适当的权值初始化使得消失/爆炸梯度的问题不是很频繁。当然，这完全是基于个人的经验。考虑到这一点还是很重要的

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/68733

复制

相似问题

问消失梯度与爆炸梯度作为激活函数？EN