问用于读取Hadoop (HAR)文件的FileInputFormat
EN

Stack Overflow用户

提问于 2016-05-04 21:08:29

回答 1查看 2.1K关注 0票数 0

我使用命令行实用工具：hadoop archive创建了一个have。

如何读取mapreduce或spark中HAR文件的内容？有能理解HAR文件的FileInputFormat吗？

遵循answer...here是简单的脚本，以防其他人感兴趣：

A =     LOAD 'har:///user/me/my.har/*.parquet'  
        USING parquet.pig.ParquetLoader 
        ('key:chararray')
        ;

hadoop

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-04 21:11:50

来自Hadoop档案与MapReduce

在MapReduce中使用Hadoop就像指定一个与默认文件系统不同的输入文件系统一样简单。如果在HDFS中存储了hadoop存档，那么要将此存档用于har:///user/zoo/foo.har.输入，只需将输入目录指定为/user/zoo/foo.har。由于Hadoop是作为一个文件系统公开的，因此MapReduce将能够使用Hadoop中的所有逻辑输入文件作为输入。

因此，您应该能够使用任何FileInputFormat来读取相同文件的HDFS目录。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37038046

复制

相似问题

问用于读取Hadoop (HAR)文件的FileInputFormat
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于读取Hadoop (HAR)文件的FileInputFormatEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于读取Hadoop (HAR)文件的FileInputFormat
EN