首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >消失梯度与爆炸梯度作为激活函数?

消失梯度与爆炸梯度作为激活函数?
EN

Data Science用户
提问于 2020-02-26 13:03:00
回答 1查看 237关注 0票数 2

ReLU用作一个激活函数,用于两个目的:

  1. 在DNN中打破线性。
  2. 帮助处理消失梯度问题。

对于爆炸梯度问题,我们采用梯度裁剪方法,其中我们设置了梯度的最大阈值极限,类似于ReLU设置最小梯度极限为0。

到目前为止,我读到,ReLU被认为是一个激活函数。以类似的方式,我们也可以使用梯度剪裁作为激活函数吗?如果是的话,是否有使用它的利弊?

EN

回答 1

Data Science用户

发布于 2020-02-26 16:31:23

ReLU被认为是一个激活函数,以类似的方式,我们可以使用梯度剪裁也作为一个激活函数吗?

ReLU是一个激活函数。梯度裁剪是一种防止爆炸梯度问题的技术。

我还想强调,控制消失/爆炸梯度的最佳技术是,目前的批量归一化。辍学(一种为对抗过度拟合而产生的技术)也具有类似的正则化效果--迫使模型在层中更均匀地分配权重。这就是为什么你不会像以前那样经常看到梯度剪裁。

编辑:

我忘了提到,适当的变量缩放和适当的权值初始化使得消失/爆炸梯度的问题不是很频繁。当然,这完全是基于个人的经验。考虑到这一点还是很重要的

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/68733

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档