首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >阿夫罗、木地板和SequenceFileFormat在哈多普生态系统中的地位及其应用

阿夫罗、木地板和SequenceFileFormat在哈多普生态系统中的地位及其应用
EN

Stack Overflow用户
提问于 2016-01-07 14:19:43
回答 1查看 731关注 0票数 1

我看到不同的文件格式在导入和存储到HDFS时使用,而且数据处理引擎在执行自己的procedures.So集时使用这些格式,这些文件格式产生了什么样的差异,以及它们如何选择不同的使用cases.Being --它创建了confusion.Kindly帮助相同的新手。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-01-07 21:39:53

选择取决于您所面临的用例,取决于您所拥有的数据类型、与处理工具的兼容性、模式演化、文件大小、查询和读取性能的类型。

一般而言:

  • Avro更适合用于可能随时间变化的事件数据。
  • 序列用于在MR jobs之间共享的数据集。
  • 由于它的柱状格式,它更适合分析。

这里有几把钥匙可以帮你

写作性能(写得越多越快)

  • 序列:+++
  • 阿夫罗:++
  • 拼花:+

阅读性能(阅读能力越强越快)

  • 序列:+
  • 阿夫罗:+++
  • 拼花:+++

文件大小(文件越多,文件越小)

  • 序列:+
  • 阿夫罗:++
  • 拼花:+++

下面是关于每种文件类型的一些事实

阿夫罗:

  • 更好的模式进化
  • 是面向行的二进制格式
  • 有一个模式
  • 该文件除了包含数据外,还包含架构。
  • 支持模式演化
  • 可以压缩
  • 紧凑快速二进制格式

拼花:

  • 写得慢,读得快
  • 是面向列的二进制格式
  • 支撑压缩
  • 需要查询特定列时,磁盘I/O方面的优化和高效

SequenceFile:

  • 是面向行的格式
  • 即使数据被压缩,也支持拆分。
  • 可用于在hadoop中打包小文件。

我希望我的回答能帮助你

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34657432

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档