我正在做一个新闻分类的项目。基本上,该系统将根据预先确定的主题(如体育、政治、国际)对新闻文章进行分类。为了建立这个系统,我需要免费的数据集来训练这个系统。
到目前为止,经过几个小时的谷歌搜索和这里的链接,我能找到的唯一合适的数据集是这。希望这样就足够了,我想我会努力找到更多的。
请注意,我想要的数据集:
有人能帮我吗?
发布于 2013-05-21 13:14:00
你试过使用Reuters21578吗?它是最常见的文本分类数据集。它是用SGML格式化的,但是解析和转换到txt格式非常简单。
发布于 2011-11-20 16:01:02
您可以构建它,您可以编写Python/Perl/PHP脚本,在其中运行搜索,然后当您找到答案时,您可以使用regex隔离属性.我认为这是最好的选择。这并不容易,但应该是有趣的,最后你可以与我们分享这个数据集。
https://stackoverflow.com/questions/8184254
复制相似问题