我一直在训练文本和seq2seq w/注意模型的摘要摘要的训练语料库600 k文章+摘要。这算不算趋同呢?如果是这样的话,那么,在不到5k步的情况下,它会不会是正确的呢?考虑因素:
或者我实际上没有看到我的狗的脸在茶叶和边缘负斜率是否如预期的?

发布于 2017-09-11 09:49:15
好的,我实际上切换到了GPU (而不是CPU)上的训练,并证明了模型仍然在学习。以下是初始化一个全新模型后的学习曲线:

使用AWSp2.x大型NVIDIA K80,加速比约为30倍。
https://stackoverflow.com/questions/45702608
复制相似问题