发布于 2016-07-27 10:11:36
常见的爬行索引文件可在s3://commoncrawl/cc-index/collections/公开使用
您可以签出aws命令行提供的所有爬行索引:aws s3 ls s3://commoncrawl/cc-index/collections/
2015年4月的索引文件位于s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/
如果您想通过http协议下载索引*.gz文件,可以:
https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz
cdx文件主要来自cdx-00000.gz到cdx-00299.gz,因此完整的索引包含在300个文件中。
https://stackoverflow.com/questions/31115625
复制相似问题