谁能告诉我一些我用来分类的大型语料库?
但我指的不是路透社或20个新闻组,我说的是GB大小的语料库,而不是20MB或类似的内容。
我只能找到这个路透社和20个新闻组,这对于我需要的东西来说是非常小的。
发布于 2015-08-28 07:29:04
用于文本分类评估的最流行的数据集是:
然而,上面的数据集不符合“大”的要求。以下数据集可能满足您的标准:
你可以通过提取在
您可以浏览其他公开提供的datasets here
除了上述之外,你可能必须开发你自己的语料库。我将在这个周末晚些时候发布一个新闻语料库构建器,它将帮助你根据你选择的主题开发自定义语料库。
更新:
我创建了上面提到的自定义语料库构建器模块,但是忘了链接它News Corpus Builder
发布于 2015-08-27 18:57:36
https://stackoverflow.com/questions/32246702
复制相似问题