我听说谷歌主办(或将要主办)网络分类竞赛,他们提供了一个大型的(170k+文档)网站数据集,这些网站被分成多个类别(体育、计算机、科学等)。我试着在他们的2009年到2011年的代码之夏网站上到处寻找,但没有找到任何东西。有人知道我在哪里可以得到那个数据集吗?
发布于 2011-03-23 23:04:30
我想我找到了(尽管我不确定数据是否由谷歌提供):the ECML/PKDD 2010 Discovery Challenge Data Set包含22个训练标签(即关于内容的标签)、URL和超链接、基于内容和基于链接的网页垃圾邮件功能、词频和自然语言处理功能。
https://stackoverflow.com/questions/5394653
复制相似问题