在训练深度学习模型时,随着时代数的增加,完成一个步骤所需的时间不断减少。在数据相同的情况下,是什么导致了效率的提高?
为什么在第一个时代,它比其他时代要大?对于同样的问题,任何答案或参考资料都是值得理解的。
这是我的训练模型截图:

您可以看到时间/步长递减为3s/步长、810ms/步长、722ms/步长等等。
发布于 2019-10-05 05:06:28
部分答案:
由于各种初始化开销,第一个时期较慢:整个模型初始化为选定的值或分布,实例化模型层,等等。
以后的时代可能会因为各种原因而加速。在我所做的工作中,最常见的是各种算法分析器正在学习模型的data+flow控制,并正在调整流程以获得更好的性能。
这可能涉及到输入摄取(缓存)、操作短路、切换到稀疏矩阵计算,因为核心权重“抖动”到拥有0.0个元素的大多数,等等。
然而,如果没有恰当的例子来准确地再现效果,也没有试图描述执行情况,这些想法只是猜测。
发布于 2019-10-11 18:47:50
这是非常具体的情况,不能推广。所花费的时间是一个可变的组成部分,它取决于各种外部因素,以及运行过程中的内存可用性、输入大小等。
https://stackoverflow.com/questions/58233787
复制相似问题