首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >访问常见的爬网AWS公共数据集

访问常见的爬网AWS公共数据集
EN

Stack Overflow用户
提问于 2013-05-20 20:27:38
回答 4查看 8.3K关注 0票数 6

我需要浏览和下载公共爬虫公共数据集的一个子集。This页面提到了数据托管的位置。

如何浏览和下载托管在s3://aws-publicdatasets/common-crawl/crawl-002/上的常见爬网数据?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2014-08-14 07:44:29

就像更新一样,下载Common Crawl语料库一直是免费的,您可以使用HTTP而不是S3。S3允许您使用匿名凭据来访问数据。

如果您希望通过HTTP下载,请获取其中一个文件位置,例如:

common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

然后将https://commoncrawl.s3.amazonaws.com/添加到其中,生成以下链接:

https://commoncrawl.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2014-23/segments/1404776400583.60/warc/CC-MAIN-20140707234000-00000-ip-10-180-212-248.ec2.internal.warc.gz

要获取所有此类文件的列表,请参阅最近的爬网上的warc.paths.gz (或WET或WAT文件的等效文件),或使用s3cmd或类似工具使用匿名凭据列出文件。

此链接将起作用,使您无需通过S3即可下载数据。

票数 15
EN

Stack Overflow用户

发布于 2015-06-16 17:59:01

有关对常见爬网的常规数据访问,请访问:http://blog.commoncrawl.org/2015/05/april-2015-crawl-archive-available/

我认为获取一些试验数据的一种有用的方法是在归档文件上使用新的索引:http://index.commoncrawl.org/CC-MAIN-2015-18

例如,如果您查询"www.cwi.nl",您会找到包含来自该域的文件的段的JSON结构。

代码语言:javascript
复制
{
 "urlkey": "nl,cwi)/", "timestamp": "20150505031358", 
 "status": "200", "url": "http://www.cwi.nl/", 
 "filename": "common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz", 
 "length": "5881", "mime": "text/html", "offset": "364108412", 
 "digest": "DLQQ4NMJMRRZFGXSXGSFPRO3YJBKVHN5"
}

在其前面加上s3信息,您就可以下载可用作示例数据的数据文件:https://aws-publicdatasets.s3.amazonaws.com/common-crawl/crawl-data/CC-MAIN-2015-18/segments/1430455222810.45/warc/CC-MAIN-20150501044022-00044-ip-10-235-10-82.ec2.internal.warc.gz

玩得开心!

票数 4
EN

Stack Overflow用户

发布于 2013-05-20 23:33:54

要访问Common Crawl数据,您需要对其运行map-reduce作业,并且,由于语料库驻留在S3上,您可以通过使用亚马逊的EC2服务运行

集群来执行此操作。这涉及到设置一个自定义hadoop,它利用我们的自定义InputFormat类从我们的S3存储桶中的各个ARC文件中提取数据。

来源:http://commoncrawl.org/the-data/

入门:http://commoncrawl.org/the-data/get-started/

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16649535

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档