我看到不同的文件格式在导入和存储到HDFS时使用,而且数据处理引擎在执行自己的procedures.So集时使用这些格式,这些文件格式产生了什么样的差异,以及它们如何选择不同的使用cases.Being --它创建了confusion.Kindly帮助相同的新手。
发布于 2016-01-07 21:39:53
选择取决于您所面临的用例,取决于您所拥有的数据类型、与处理工具的兼容性、模式演化、文件大小、查询和读取性能的类型。
一般而言:
这里有几把钥匙可以帮你
写作性能(写得越多越快)
阅读性能(阅读能力越强越快)
文件大小(文件越多,文件越小)
下面是关于每种文件类型的一些事实
阿夫罗:
拼花:
SequenceFile:
我希望我的回答能帮助你
https://stackoverflow.com/questions/34657432
复制相似问题