首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >新闻文章数据集

新闻文章数据集
EN

Stack Overflow用户
提问于 2011-11-18 14:48:12
回答 2查看 3.2K关注 0票数 6

我正在做一个新闻分类的项目。基本上,该系统将根据预先确定的主题(如体育、政治、国际)对新闻文章进行分类。为了建立这个系统,我需要免费的数据集来训练这个系统。

到目前为止,经过几个小时的谷歌搜索和这里的链接,我能找到的唯一合适的数据集是。希望这样就足够了,我想我会努力找到更多的。

请注意,我想要的数据集:

  1. 包含完整的新闻文章,而不仅仅是标题
  2. 用英语写的
  3. 采用.txt格式,而不是XML或db。

有人能帮我吗?

EN

回答 2

Stack Overflow用户

发布于 2013-05-21 13:14:00

你试过使用Reuters21578吗?它是最常见的文本分类数据集。它是用SGML格式化的,但是解析和转换到txt格式非常简单。

票数 1
EN

Stack Overflow用户

发布于 2011-11-20 16:01:02

您可以构建它,您可以编写Python/Perl/PHP脚本,在其中运行搜索,然后当您找到答案时,您可以使用regex隔离属性.我认为这是最好的选择。这并不容易,但应该是有趣的,最后你可以与我们分享这个数据集。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8184254

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档