首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >下载通用爬行完整索引文件

下载通用爬行完整索引文件
EN

Stack Overflow用户
提问于 2015-06-29 12:23:24
回答 1查看 1.2K关注 0票数 2

下面的项目中使用的通用爬行索引文件

复制

mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792')

部分的。

我希望完整的索引文件(4月-2015年爬行数据)在我的项目中使用,该项目使用上述项目作为基础。

我可以在哪里下载整个索引文件?

这里汤姆·莫里斯说

索引服务使用的索引文件也可供下载。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-27 10:11:36

常见的爬行索引文件可在s3://commoncrawl/cc-index/collections/公开使用

您可以签出aws命令行提供的所有爬行索引:aws s3 ls s3://commoncrawl/cc-index/collections/

2015年4月的索引文件位于s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/

如果您想通过http协议下载索引*.gz文件,可以:

https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz

cdx文件主要来自cdx-00000.gz到cdx-00299.gz,因此完整的索引包含在300个文件中。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31115625

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档