首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Hadoop-streaming处理gzip文件

使用Hadoop-streaming处理gzip文件
EN

Stack Overflow用户
提问于 2014-04-23 05:29:58
回答 1查看 3.7K关注 0票数 3

我看到很多关于将hadoop MapReduce结果输出为gzip格式或任何其他压缩格式的帖子。然而,关于hadoop-streaming是如何读入(输入)压缩格式的,我并没有看到太多。我看过一些关于使用-jobconf stream.recordreader.compression=gzip http://mail-archives.apache.org/mod_mbox/hadoop-common-user/200907.mbox/%3C73e5a5310907141349k3329c5cua4bb58fcf103522@mail.gmail.com%3E来做输入部分的老文章。目前,我在Ubuntu LTS 12.04上使用Cloudera CDH 5。用python编写mapper和reducer。

EN

回答 1

Stack Overflow用户

发布于 2014-10-30 07:08:38

不需要额外的命令行参数,Hadoop流作业本身就支持Gzip输入。Gzip文件将被自动检测并解压缩。只需使用-input选项传递gzip文件即可。下面是一个非常简单的例子:

$ hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -input /user/johndoe/test_input.gz -output /user/johndoe/output -mapper /bin/cat -reducer /usr/bin/wc

在输入方面,使用Python映射器和缩减程序不会改变任何事情。

我注意到但尚未解决的一个警告是:使用带有-inputreader "StreamXmlRecordReader,begin=page,end=/page"选项的gzip输入不会产生任何输出。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23230578

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档