首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大型分类文档语料库

大型分类文档语料库
EN

Stack Overflow用户
提问于 2015-08-27 18:17:58
回答 2查看 6.5K关注 0票数 5

谁能告诉我一些我用来分类的大型语料库?

但我指的不是路透社或20个新闻组,我说的是GB大小的语料库,而不是20MB或类似的内容。

我只能找到这个路透社和20个新闻组,这对于我需要的东西来说是非常小的。

EN

回答 2

Stack Overflow用户

发布于 2015-08-28 07:29:04

用于文本分类评估的最流行的数据集是:

  • Reuters Dataset
  • 20 Newsgroup Dataset

然而,上面的数据集不符合“大”的要求。以下数据集可能满足您的标准:

你可以通过提取在

  • Commoncrawl标签中具有特定关键字的文章来构建一个大型语料库,并将其应用于文档classification.
  • Enron Email Dataset,你可以执行各种不同的分类任务here.
  • Topic Annotated Enron Dataset。不是免费的,但已经贴上标签,可以满足您的大型语料库请求

您可以浏览其他公开提供的datasets here

除了上述之外,你可能必须开发你自己的语料库。我将在这个周末晚些时候发布一个新闻语料库构建器,它将帮助你根据你选择的主题开发自定义语料库。

更新:

我创建了上面提到的自定义语料库构建器模块,但是忘了链接它News Corpus Builder

票数 6
EN

Stack Overflow用户

发布于 2015-08-27 18:57:36

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32246702

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档