当我在CNN上读到关于减肥的文章时,我感到很困惑。它是适用于所有的层,包括卷积层,还是只用于稠密层?
发布于 2020-01-03 21:03:05
发布于 2019-12-02 10:31:31
简单的回答是两者都是。
一种方法是删除对整个学习的“贡献较小”的过滤器,大约每一个时代。定义“贡献较少”,这是这项研究的有趣之处。例如,它可以基于每个过滤器的运行平均值,并去除均值较小的CNN的过滤器。其他一些研究,
显然,几乎所有CNN的参数瓶颈都发生在与最后一个卷积层的输出相连接的第一个密集层。因此,对这一层进行适当的修剪将是相当有效的。
我找不到任何好的论文,为密集层引入参数压缩。但我会更新我的解决方案如果我遇到任何。
另一种非常酷的方法被称为知识升华。知识蒸馏是当你训练一个较小的网络来模仿一个更大的网络。有一篇很受欢迎的论文是这里。
https://datascience.stackexchange.com/questions/64080
复制相似问题