文章/答案/技术大牛

发布

社区首页 >问答首页 >映射一系列warc.gz文件

问映射一系列warc.gz文件
EN

Stack Overflow用户

提问于 2016-07-07 23:51:52

回答 2查看 162关注 0票数 1

我已经在AWS/EMR中运行了一个流步骤，使用Python编写的映射器和reducer来映射Common Crawl中的一些档案，以进行情绪分析。

我正在从旧的通用爬虫textData格式转换到新的warc.gz格式，我需要知道如何为我的电子病历输入指定一系列warc.gz文件。

例如：

在旧格式中，我可以指定textData文件的输入范围，如下所示：

s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9]

但是新的格式看起来像这样：

第一个文件：

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz

第二个文件：

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz

如何指定映射这些warc.gz文件的某个范围？

python

hadoop

elastic-map-reduce

回答 2

Stack Overflow用户

发布于 2016-07-08 01:57:36

我非常确定您可以使用之前使用的相同方法。只需读取您将使用的两个文件：

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz

此外，由于这些路径比前一个路径更丰富，因此您可以使用其他方法来指定要处理的数据集。

CC-MAIN-2016-07 is CC-MAIN-YYYY-ww -能够指定一组要处理的年数或周数。

CC-MAIN-20160205195359 is CC-MAIN-YYYYMMDDHHmmss -您可以选择日期或时间范围。

票数 0

Stack Overflow用户

发布于 2016-08-17 02:03:52

2016年7月warc文件列表下载地址：

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz

要通过浏览器访问，请将其附加到文件中提到的路径

commoncrawl.s3.amazonaws.com/

在您的情况下，要通过s3访问，请尝试将此内容附加到路径

s3://commoncrawl/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38250004

复制

相似问题

问映射一系列warc.gz文件
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问映射一系列warc.gz文件EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问映射一系列warc.gz文件
EN