我正在研究tensorflow的textsum (文本摘要模型)。我把它放在运行,以训练模型与样本数据,即玩具数据集提供的模型,同时从git克隆。我想知道训练模型和使用样本数据集解码需要多长时间?它已经花了超过17个小时,并且还在运行。
发布于 2016-11-21 23:17:42
不幸的是,对于玩具数据训练集,它只是为您提供了一种观察模型整体流程的方法,而不是为您提供令人满意的结果。这是因为在玩具数据集中没有提供足够的数据来提供良好的结果。
时间量是很难提供的,因为它都是与您运行的硬件相关的。因此,你通常会进行训练,直到你的平均损失在2到1之间。潘欣表示,对于更大的数据集,你永远不应该低于1.0的平均损失。所以在我的980M上,我能够用玩具数据集在不到一天的时间里得到这个。
也就是说,我的结果真的很糟糕,我认为有什么地方不对劲。我发现唯一的问题是我没有足够的数据。然后我抓取了大约40k篇文章,结果仍然是不可接受的。最近,我针对130万篇文章进行了训练,结果好多了。经过进一步分析,这主要是因为textsum模型是抽象的,而不是提取的。
希望这能有所帮助。对于设置为64的130万和批处理,我能够在不到一周半的时间内使用TF 0.9,cuda 7.5和cudnn 4在我的硬件上训练模型。我听说新的cudnn/cuda应该更快,但我还不能说出这一点。
发布于 2017-02-02 15:47:26
在我的i5处理器上,仅使用cpu,玩具训练数据集的值需要大约60个小时才能达到0.17。
使用8 8gb的内存,它消耗了大约10 8gb的额外内存和额外的交换空间。增加内存和使用GPU可能会提供更好的结果。目前我无法显示tensorboard的运行平均损失的图像,但我希望你的问题已经得到了回答。
https://stackoverflow.com/questions/40012689
复制相似问题