当我决定出版作为一个数据集的书籍文本集合时,我是应该先做一些预处理,还是应该发布“纯文本”?
例如,https://huggingface.co/datasets/bookcorpus是作为句子的集合发布的(因此完成了基本的预处理),但是https://huggingface.co/datasets/bookcorpusopen是用原始文本发布的。
发布于 2022-06-22 07:41:27
这取决于内容和潜在的应用程序,但不会有太大的差别。
纯文本在书的层次上有一个小小的优势,如果需要的话,可以让人们把它预处理到句子的层次。相反,这是可能的,但你可能会失去一些信息,如段落或标题,在某些情况下可能是有用的。
https://datascience.stackexchange.com/questions/112022
复制相似问题