我正在努力让textsum实现正常工作,最近我得到了自己收集的数据。我昨晚开始训练38000篇文章。今天早上,当我看平均损失时,我大约是5.2000000岁。例如,当我玩textsum玩具集的时候,我很快就能降到0.0000054左右,但是这仅仅是针对20篇文章。
我希望有更多经验的人能给我一些关于训练时间的期望值。我目前正在Nvidia 980 M上运行这个程序。上周,我确实想尝试AWSg2.2xLarge实例,但我发现具有讽刺意味的是,我的本地机器处理事物的速度似乎比Grid520更快。我仍然想测试P2实例和Google,但现在我认为我只是在使用本地机器。
任何信息,任何人都可以提供在这里,关于什么我应该期望?谢谢!
发布于 2016-10-17 15:16:16
所以我要自己回答这个问题,因为我现在基本上可以这样做。我从另一篇文章中发现了一件有趣的事情,那就是,对于一个大的数据集,在“平均损失”值方面,你真的不应该训练低于1。这是因为你开始进入“过度适应”。因此,在我目前使用笔记本电脑Nvidia 980 M对40k篇文章进行的培训中,该语音文件有65997字,平均花费了大约一天的时间将“平均损失”降为一个完整的数字。所以目前我看到的数字大约在1.2到2.8之间。
-编辑-当我用上面数字的平均损失对数据进行解码时,结果非常糟糕。经过更多的思考之后,我意识到我的数据集可能不是一个“大”数据集。像Xin和其他能够访问Gigaword数据集的人正在针对1篇million+文章进行培训。因此,我觉得我的40k篇文章与之相比没有什么可比较的。另外,当上述声明发表时,我不确定他的意思是平均损失1,还是0.01。不管是哪种方式,我现在都在用Tensorboard来想象“过度适应”,我将继续我的训练,直到我得到一个较低的avg损失。稍后,当我的结果更好时,我会补充这一点。
希望这能为那些想知道同样情况的人提供一点参考。
https://stackoverflow.com/questions/40045871
复制相似问题