在对通过data_convert_example.py转换为二进制的我自己的数据集执行培训时,会发现此问题。经过一周的培训,我得到了解码结果,在比较解码和参考文件时没有意义。
如果有人使用自己的数据获得了类似于Textsum自述的结果,我想知道you...environment、tf构建和文章的数量。
我目前还没有得到0.11的运气,但在0.9中得到了一些结果,但是解码结果与下面显示的类似,我甚至不知道它们来自何处。
我目前运行的Ubuntu16.04,TF 0.9,CUDA 7.5和CuDnn 4。我尝试了TF 0.11,但正在处理其他问题,所以我回到0.9。看来解码结果是从有效的文章中生成的,但是引用文件和解码文件指示符没有相关性。
如果有人能提供任何帮助或指导,我们将不胜感激。否则,如果我想出什么办法,我会在这里张贴。
最后几个问题。关于引用的词汇表文件。它根本就需要按词频分类吗?在生成这些代码时,我从未执行过类似的操作,只是不确定这是否也会抛出一些东西。
最后,在生成数据时,我假设培训数据文章应该被分解成更小的批。我把文章分成多个文件,每个文件包含100篇文章。这些被命名为数据-0,数据-1,等等。我认为这是一个正确的假设对我来说?我还将所有的词汇表保存在一个文件中,这个文件似乎没有抛出任何错误。
上述假设也是正确的吗?
下面是一些参考和解码结果,您可以看到是相当奇怪的,似乎没有相关性。
解码:
output=Wild Boy Goes About How I Can't Be Really Go For Love
output=State Department defends the campaign of Iran
output=John Deere sails profit - Business Insider
output=to roll for the Perseid meteor shower
output=Man in New York City in Germany参考资料:
output=Battle Chasers: Nightwar Combines Joe Mad's Stellar Art With Solid RPG Gameplay
output=Obama Meets a Goal That Could Literally Destroy America
output=WOW! 10 stunning photos of presidents daughter Zahra Buhari
output=Koko the gorilla jams out on bass with Flea from Red Hot Chili Peppers
output=Brenham police officer refused service at McDonald's发布于 2016-11-29 00:50:05
我自己来回答这个问题。这里的问题似乎是缺乏培训数据。最后,我确实对我的vocab文件进行了排序,但是这似乎是不必要的。这样做的原因是,允许最终用户将词汇量限制在200 k左右,如果他们愿意的话。
造成上述问题的最大原因仅仅是缺乏数据。当我在最初的文章中运行培训时,我正在使用40k+文章。我认为这已经足够了,但显然还不够,当我深入到代码中并对所发生的事情有了更好的理解时,这一点就更加明显了。最后,我把文章数量增加到超过130万篇,我在980 got上训练了大约一个半星期,平均损失达到1.6到2.2,我看到了更好的结果。
我正在学习这一点,但我停止了以上的平均损失,因为我所做的一些阅读表明,当你对你的“测试”数据进行“评估”时,你的平均损失应该接近你在培训中所看到的。这有助于确定当这些离你很远时,你是否接近了过份。再来一次,我正在学习,但这对我来说似乎是合乎逻辑的。
最后一个我很难学到的东西就是这个。确保升级到最新的0.11 Tensorflow版本。我最初使用0.9进行培训,但当我想知道如何导出tensorflow的模型时,我发现回购中没有export.py文件。当我升级到0.11时,我发现检查点文件结构似乎在0.11中发生了变化,我需要再花两个星期的时间进行培训。因此,我建议只是升级,因为他们已经解决了一些问题,我看到了在驻地协调员。我仍然必须设置is_tuple=false,但撇开这一点,一切都很顺利。希望这能帮上忙。
https://stackoverflow.com/questions/40209527
复制相似问题