问自然语言生成中大型文本语料库的预处理建议
EN

Data Science用户

提问于 2023-01-25 19:14:51

回答 1查看 129关注 0票数 1

我有一个大型的文本语料库(即3000万个句子，全部是小写的Penn Treebank格式)，我想用它来训练一个神经网络来生成自然语言。在此，您推荐哪些预处理步骤？句子来源于正式文本(即书籍)。我计划使用命名实体识别，以便在培训和生成过程中替换命名实体，如人员、位置和组织，并将它们添加回最终输出。还有其他建议吗？

text-generation

nlp

preprocessing

回答 1

Data Science用户

回答已采纳

发布于 2023-02-04 19:00:10

一些评论：

使用Transformers和子单词词汇表(例如字节对编码(BPE))，通常不需要删除命名实体，因为模型能够很好地处理它们。例如，在机器翻译模型中，学习逐字复制或翻译它们，没有太多的问题。我的建议是，除非证明有必要，否则不要把事情复杂化。
同样，对于Transformers和BPE通常不需要进行太多的预处理。如果有的话，我将确保您的数据中没有垃圾。过去对我起作用的是对第一句和最后一句进行排序，在那里你通常可以找到垃圾，然后手动移除它们。

票数 4

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/118035

复制

相似问题

问自然语言生成中大型文本语料库的预处理建议
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自然语言生成中大型文本语料库的预处理建议EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问自然语言生成中大型文本语料库的预处理建议
EN