我使用命令行实用工具:hadoop archive创建了一个have。
如何读取mapreduce或spark中HAR文件的内容?有能理解HAR文件的FileInputFormat吗?
遵循answer...here是简单的脚本,以防其他人感兴趣:
A = LOAD 'har:///user/me/my.har/*.parquet'
USING parquet.pig.ParquetLoader
('key:chararray')
;发布于 2016-05-04 21:11:50
在MapReduce中使用Hadoop就像指定一个与默认文件系统不同的输入文件系统一样简单。如果在HDFS中存储了hadoop存档,那么要将此存档用于
har:///user/zoo/foo.har.输入,只需将输入目录指定为/user/zoo/foo.har。由于Hadoop是作为一个文件系统公开的,因此MapReduce将能够使用Hadoop中的所有逻辑输入文件作为输入。
因此,您应该能够使用任何FileInputFormat来读取相同文件的HDFS目录。
https://stackoverflow.com/questions/37038046
复制相似问题