根据您的经验,较小的CNN模型(较少的params)比大型模型的收敛速度更快吗?
当然,我会认为是的,因为需要优化的参数较少。然而,我正在训练一个定制的基于MobileNetV2 2的Unet (带有2.9k参数)用于图像分割,它比具有更多参数(5k参数)的模型需要更长的时间来收敛。如果此收敛行为是意外的,则可能表示体系结构中存在错误。
发布于 2020-12-08 08:59:34
在大多数情况下,可能。不管是什么情况都不行。特别是,如果您正在进行小数据的培训,并且具有非常积极的正则化,您可能需要很长时间才能达到预期的性能水平。
例如,对于一些名为Transformers的受欢迎的文本生成网络(Transformers)来说,有必要使用非常积极的正则化技术,并在非常多的迭代中进行培训(参见这个Twitter线程,其中描述了如何在PTB和Wikitext-103数据集上训练变压器模型)。
发布于 2021-01-11 13:37:28
有趣的问题。正如@ncasas所提到的,在大多数情况下,可能,对于所有情况,都没有。
有许多因素会影响网络聚合的速度。
无论是使用SGD、Adam还是其他优化器,它都会对收敛速度产生直接影响。这些优化器都有超参数,特别是学习速率,它可以产生巨大的差异。
不用说,经过预先训练的网络可能比未融合的网络更快地收敛。虽然很小,但总有一种可能性,即不同的权值初始化会使您更接近或更远离收敛。
具有N参数的网络可以以多种不同的方式设计,具有不同的层类型、层数和层大小。每种架构都会产生不同的收敛行为。
值得记住的是,神经网络通常不会收敛到全局最优,但它们确实有许多局部最优,你可以在其中结束。训练本质上是尝试多种权重组合,然后决定一个令人满意的配置。所有这些都是为了说明某些问题可能比其他问题具有更“令人满意”的配置,这意味着一些网络可能比其他网络有更多的方法来收敛,这意味着它们可能会更快地找到一个。
https://datascience.stackexchange.com/questions/86395
复制相似问题