首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自然语言生成中大型文本语料库的预处理建议

自然语言生成中大型文本语料库的预处理建议
EN

Data Science用户
提问于 2023-01-25 19:14:51
回答 1查看 129关注 0票数 1

我有一个大型的文本语料库(即3000万个句子,全部是小写的Penn Treebank格式),我想用它来训练一个神经网络来生成自然语言。在此,您推荐哪些预处理步骤?句子来源于正式文本(即书籍)。我计划使用命名实体识别,以便在培训和生成过程中替换命名实体,如人员、位置和组织,并将它们添加回最终输出。还有其他建议吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2023-02-04 19:00:10

一些评论:

  1. 使用Transformers和子单词词汇表(例如字节对编码(BPE)),通常不需要删除命名实体,因为模型能够很好地处理它们。例如,在机器翻译模型中,学习逐字复制或翻译它们,没有太多的问题。我的建议是,除非证明有必要,否则不要把事情复杂化。
  2. 同样,对于Transformers和BPE通常不需要进行太多的预处理。如果有的话,我将确保您的数据中没有垃圾。过去对我起作用的是对第一句和最后一句进行排序,在那里你通常可以找到垃圾,然后手动移除它们。
票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118035

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档