我有一个大型的文本语料库(即3000万个句子,全部是小写的Penn Treebank格式),我想用它来训练一个神经网络来生成自然语言。在此,您推荐哪些预处理步骤?句子来源于正式文本(即书籍)。我计划使用命名实体识别,以便在培训和生成过程中替换命名实体,如人员、位置和组织,并将它们添加回最终输出。还有其他建议吗?
发布于 2023-02-04 19:00:10
一些评论:
https://datascience.stackexchange.com/questions/118035
相似问题