首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >您能在gzipped输入中使用s3distcp吗?

您能在gzipped输入中使用s3distcp吗?
EN

Stack Overflow用户
提问于 2015-08-26 05:25:44
回答 1查看 611关注 0票数 0

我正试图使用s3distcp来弥补许多小的gzipped文件,不幸的是,这些文件没有以gz扩展名结尾。s3distcp有一个outputCodec参数,可以用来压缩输出,但是没有对应的inputCodec。我试图在hadoop流调用中使用--jobconf,但它似乎没有做任何事情(输出仍然压缩)。我使用的命令是

代码语言:javascript
复制
hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
           --src s3://inputfolder --dest hdfs:///data

有什么好主意吗?我在运行AWS EMR AMI-3.9。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-09-11 04:33:49

正如您在s3distcp代码:https://github.com/netshade/s3distcp/blob/b899910d04a112019ba695f29d3b0b3d9a785603/src/main/java/com/amazon/external/elasticmapreduce/s3distcp/CopyFilesReducer.java第197行中看到的那样,s3distcp依赖于文件扩展名来实例化InputStream。则无法将输入格式设置为参数。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32218584

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档