首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CNN的重量剪枝

CNN的重量剪枝
EN

Data Science用户
提问于 2019-12-02 09:34:59
回答 2查看 484关注 0票数 0

当我在CNN上读到关于减肥的文章时,我感到很困惑。它是适用于所有的层,包括卷积层,还是只用于稠密层?

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-01-03 21:03:05

下面是一个与您的问题相关的更完整的文章

剪枝的想法是简单的和合乎逻辑的,但是当看到更大的图景时,它并不是直接的实现。主要原因之一是,更深层上的操作取决于以前的层,因此对早期层的篡改可能会影响下一层。因此,如果您要修剪中间的一个层,下面的层也会在某种程度上被修剪(我不确定如何正确地实现这个细节)。

正如上面所讨论的,正确地实现是很痛苦的(因此不是推荐的practice_ )。另一种更好的选择是知识蒸馏,这就是建立一个较小规模的网络,但我们训练它时,它将模仿一个更复杂的教师模型的输出。在这方面有很多很好的例子,例如Distillbert。这里有一个与此相关的不错的链接,它还包含了大量的参考资料。

票数 1
EN

Data Science用户

发布于 2019-12-02 10:31:31

简单的回答是两者都是。

滤波器修剪

一种方法是删除对整个学习的“贡献较小”的过滤器,大约每一个时代。定义“贡献较少”,这是这项研究的有趣之处。例如,它可以基于每个过滤器的运行平均值,并去除均值较小的CNN的过滤器。其他一些研究,

密层剪枝

显然,几乎所有CNN的参数瓶颈都发生在与最后一个卷积层的输出相连接的第一个密集层。因此,对这一层进行适当的修剪将是相当有效的。

我找不到任何好的论文,为密集层引入参数压缩。但我会更新我的解决方案如果我遇到任何。

知识蒸馏

另一种非常酷的方法被称为知识升华。知识蒸馏是当你训练一个较小的网络来模仿一个更大的网络。有一篇很受欢迎的论文是这里

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/64080

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档