文章/答案/技术大牛

发布

社区首页 >问答首页 >Textsum -与ref文件相比，解码结果不正确

问Textsum -与ref文件相比，解码结果不正确
EN

Stack Overflow用户

提问于 2016-10-24 01:22:51

回答 1查看 336关注 0票数 1

在对通过data_convert_example.py转换为二进制的我自己的数据集执行培训时，会发现此问题。经过一周的培训，我得到了解码结果，在比较解码和参考文件时没有意义。

如果有人使用自己的数据获得了类似于Textsum自述的结果，我想知道you...environment、tf构建和文章的数量。

我目前还没有得到0.11的运气，但在0.9中得到了一些结果，但是解码结果与下面显示的类似，我甚至不知道它们来自何处。

我目前运行的Ubuntu16.04，TF 0.9，CUDA 7.5和CuDnn 4。我尝试了TF 0.11，但正在处理其他问题，所以我回到0.9。看来解码结果是从有效的文章中生成的，但是引用文件和解码文件指示符没有相关性。

如果有人能提供任何帮助或指导，我们将不胜感激。否则，如果我想出什么办法，我会在这里张贴。

最后几个问题。关于引用的词汇表文件。它根本就需要按词频分类吗？在生成这些代码时，我从未执行过类似的操作，只是不确定这是否也会抛出一些东西。

最后，在生成数据时，我假设培训数据文章应该被分解成更小的批。我把文章分成多个文件，每个文件包含100篇文章。这些被命名为数据-0，数据-1，等等。我认为这是一个正确的假设对我来说？我还将所有的词汇表保存在一个文件中，这个文件似乎没有抛出任何错误。

上述假设也是正确的吗？

下面是一些参考和解码结果，您可以看到是相当奇怪的，似乎没有相关性。

解码：

output=Wild Boy Goes About How I Can't Be Really Go For Love 
output=State Department defends the campaign of Iran
output=John Deere sails profit - Business Insider  
output=to roll for the Perseid meteor shower
output=Man in New York City in Germany

参考资料：

output=Battle Chasers: Nightwar Combines Joe Mad's Stellar Art With Solid RPG Gameplay
output=Obama Meets a Goal That Could Literally Destroy America
output=WOW! 10 stunning photos of presidents daughter Zahra Buhari   
output=Koko the gorilla jams out on bass with Flea from Red Hot Chili Peppers  
output=Brenham police officer refused service at McDonald's

tensorflow

textsum

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-11-29 00:50:05

我自己来回答这个问题。这里的问题似乎是缺乏培训数据。最后，我确实对我的vocab文件进行了排序，但是这似乎是不必要的。这样做的原因是，允许最终用户将词汇量限制在200 k左右，如果他们愿意的话。

造成上述问题的最大原因仅仅是缺乏数据。当我在最初的文章中运行培训时，我正在使用40k+文章。我认为这已经足够了，但显然还不够，当我深入到代码中并对所发生的事情有了更好的理解时，这一点就更加明显了。最后，我把文章数量增加到超过130万篇，我在980 got上训练了大约一个半星期，平均损失达到1.6到2.2，我看到了更好的结果。

我正在学习这一点，但我停止了以上的平均损失，因为我所做的一些阅读表明，当你对你的“测试”数据进行“评估”时，你的平均损失应该接近你在培训中所看到的。这有助于确定当这些离你很远时，你是否接近了过份。再来一次，我正在学习，但这对我来说似乎是合乎逻辑的。

最后一个我很难学到的东西就是这个。确保升级到最新的0.11 Tensorflow版本。我最初使用0.9进行培训，但当我想知道如何导出tensorflow的模型时，我发现回购中没有export.py文件。当我升级到0.11时，我发现检查点文件结构似乎在0.11中发生了变化，我需要再花两个星期的时间进行培训。因此，我建议只是升级，因为他们已经解决了一些问题，我看到了在驻地协调员。我仍然必须设置is_tuple=false，但撇开这一点，一切都很顺利。希望这能帮上忙。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40209527

复制

相似问题

问Textsum -与ref文件相比，解码结果不正确
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Textsum -与ref文件相比，解码结果不正确EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Textsum -与ref文件相比，解码结果不正确
EN