开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >哪种格式更适合出版书籍数据集(普通的还是预处理的)？

问哪种格式更适合出版书籍数据集(普通的还是预处理的)？
EN

Data Science用户

提问于 2022-06-21 21:29:13

回答 1查看 21关注 0票数 1

当我决定出版作为一个数据集的书籍文本集合时，我是应该先做一些预处理，还是应该发布“纯文本”？

例如，https://huggingface.co/datasets/bookcorpus是作为句子的集合发布的(因此完成了基本的预处理)，但是https://huggingface.co/datasets/bookcorpusopen是用原始文本发布的。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-06-22 07:41:27

这取决于内容和潜在的应用程序，但不会有太大的差别。

纯文本在书的层次上有一个小小的优势，如果需要的话，可以让人们把它预处理到句子的层次。相反，这是可能的，但你可能会失去一些信息，如段落或标题，在某些情况下可能是有用的。

票数 1

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/112022

复制

相似问题