首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >小的神经网络总是比大型的更快收敛吗?

小的神经网络总是比大型的更快收敛吗?
EN

Data Science用户
提问于 2020-12-08 08:29:09
回答 2查看 1.2K关注 0票数 1

根据您的经验,较小的CNN模型(较少的params)比大型模型的收敛速度更快吗?

当然,我会认为是的,因为需要优化的参数较少。然而,我正在训练一个定制的基于MobileNetV2 2的Unet (带有2.9k参数)用于图像分割,它比具有更多参数(5k参数)的模型需要更长的时间来收敛。如果此收敛行为是意外的,则可能表示体系结构中存在错误。

EN

回答 2

Data Science用户

发布于 2020-12-08 08:59:34

在大多数情况下,可能。不管是什么情况都不行。特别是,如果您正在进行小数据的培训,并且具有非常积极的正则化,您可能需要很长时间才能达到预期的性能水平。

例如,对于一些名为Transformers的受欢迎的文本生成网络(Transformers)来说,有必要使用非常积极的正则化技术,并在非常多的迭代中进行培训(参见这个Twitter线程,其中描述了如何在PTB和Wikitext-103数据集上训练变压器模型)。

票数 2
EN

Data Science用户

发布于 2021-01-11 13:37:28

有趣的问题。正如@ncasas所提到的,在大多数情况下,可能,对于所有情况,都没有。

有许多因素会影响网络聚合的速度。

  • 超参数的优化与训练

无论是使用SGD、Adam还是其他优化器,它都会对收敛速度产生直接影响。这些优化器都有超参数,特别是学习速率,它可以产生巨大的差异。

  • 网络的初始状态

不用说,经过预先训练的网络可能比未融合的网络更快地收敛。虽然很小,但总有一种可能性,即不同的权值初始化会使您更接近或更远离收敛。

  • 网络本身的架构

具有N参数的网络可以以多种不同的方式设计,具有不同的层类型、层数和层大小。每种架构都会产生不同的收敛行为。

  • 手头问题的困难

值得记住的是,神经网络通常不会收敛到全局最优,但它们确实有许多局部最优,你可以在其中结束。训练本质上是尝试多种权重组合,然后决定一个令人满意的配置。所有这些都是为了说明某些问题可能比其他问题具有更“令人满意”的配置,这意味着一些网络可能比其他网络有更多的方法来收敛,这意味着它们可能会更快地找到一个。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/86395

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档