首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于读取Hadoop (HAR)文件的FileInputFormat

用于读取Hadoop (HAR)文件的FileInputFormat
EN

Stack Overflow用户
提问于 2016-05-04 21:08:29
回答 1查看 2.1K关注 0票数 0

我使用命令行实用工具:hadoop archive创建了一个have。

如何读取mapreduce或spark中HAR文件的内容?有能理解HAR文件的FileInputFormat吗?

遵循answer...here是简单的脚本,以防其他人感兴趣:

代码语言:javascript
复制
A =     LOAD 'har:///user/me/my.har/*.parquet'  
        USING parquet.pig.ParquetLoader 
        ('key:chararray')
        ;
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-04 21:11:50

来自Hadoop档案与MapReduce

在MapReduce中使用Hadoop就像指定一个与默认文件系统不同的输入文件系统一样简单。如果在HDFS中存储了hadoop存档,那么要将此存档用于har:///user/zoo/foo.har.输入,只需将输入目录指定为/user/zoo/foo.har。由于Hadoop是作为一个文件系统公开的,因此MapReduce将能够使用Hadoop中的所有逻辑输入文件作为输入。

因此,您应该能够使用任何FileInputFormat来读取相同文件的HDFS目录。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37038046

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档