文章/答案/技术大牛

发布

社区首页 >问答首页 >小的神经网络总是比大型的更快收敛吗？

问小的神经网络总是比大型的更快收敛吗？
EN

Data Science用户

提问于 2020-12-08 08:29:09

回答 2查看 1.2K关注 0票数 1

根据您的经验，较小的CNN模型(较少的params)比大型模型的收敛速度更快吗？

当然，我会认为是的，因为需要优化的参数较少。然而，我正在训练一个定制的基于MobileNetV2 2的Unet (带有2.9k参数)用于图像分割，它比具有更多参数(5k参数)的模型需要更长的时间来收敛。如果此收敛行为是意外的，则可能表示体系结构中存在错误。

training

convergence

convolutional-neural-network

neural-network

回答 2

Data Science用户

发布于 2020-12-08 08:59:34

在大多数情况下，可能。不管是什么情况都不行。特别是，如果您正在进行小数据的培训，并且具有非常积极的正则化，您可能需要很长时间才能达到预期的性能水平。

例如，对于一些名为Transformers的受欢迎的文本生成网络(Transformers)来说，有必要使用非常积极的正则化技术，并在非常多的迭代中进行培训(参见这个Twitter线程，其中描述了如何在PTB和Wikitext-103数据集上训练变压器模型)。

票数 2

Data Science用户

发布于 2021-01-11 13:37:28

有趣的问题。正如@ncasas所提到的，在大多数情况下，可能，对于所有情况，都没有。

有许多因素会影响网络聚合的速度。

超参数的优化与训练

无论是使用SGD、Adam还是其他优化器，它都会对收敛速度产生直接影响。这些优化器都有超参数，特别是学习速率，它可以产生巨大的差异。

网络的初始状态

不用说，经过预先训练的网络可能比未融合的网络更快地收敛。虽然很小，但总有一种可能性，即不同的权值初始化会使您更接近或更远离收敛。

网络本身的架构

具有N参数的网络可以以多种不同的方式设计，具有不同的层类型、层数和层大小。每种架构都会产生不同的收敛行为。

手头问题的困难

值得记住的是，神经网络通常不会收敛到全局最优，但它们确实有许多局部最优，你可以在其中结束。训练本质上是尝试多种权重组合，然后决定一个令人满意的配置。所有这些都是为了说明某些问题可能比其他问题具有更“令人满意”的配置，这意味着一些网络可能比其他网络有更多的方法来收敛，这意味着它们可能会更快地找到一个。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/86395

复制

相似问题

问小的神经网络总是比大型的更快收敛吗？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小的神经网络总是比大型的更快收敛吗？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问小的神经网络总是比大型的更快收敛吗？
EN