我知道如何使用Pig、hive、sqoop和Json加载程序在hadoop中导入和分析结构化和半结构化数据,但是如何导入非结构化数据,如视频、音频或图像,以及如何在it.Kindly上进行进一步的分析,一步一步地解释,如果您有任何分析非结构化数据的用例,这将是非常适合您的!
发布于 2017-11-14 18:21:46
由于Hadoop不能很好地处理小文件,一种方法可能是将二进制文件分组为少量的大文件(以避免处理大量的小文件)。
为了做到这一点,您可以使用自定义UDF将二进制文件(图像、音频、视频等)转换为序列文件,并将它们聚合并存储到HDFS中。
下面的书,,提供了一些关于这个主题的设计模式(参见第2章)。
在github上有一些代码片段可用。
https://github.com/pradeep-pasupuleti/pig-design-patterns/blob/master/Chapter2
希望能帮上忙!
https://stackoverflow.com/questions/47277554
复制相似问题