我试图理解Avro,并逐渐认识到它是Hadoop使用的数据序列化框架之一。
在学习Hadoop的过程中,我了解到Hadoop使用的是自己的服务器化框架,而不是Java的序列化,所以我可以在Hadoop中看到Writable、WritableComparable。
现在,在浏览了AVRO之后,它说Avro被用作Serlization框架。
我为此感到有点困惑。所以,当我们说hadoop自己的序列化框架时,我们指的是Avro还是其他东西(它是在"hadoop“本身中构建的)。
有人能帮我理解这个吗?
发布于 2018-04-09 13:12:40
Hadoop不是Avro,而是“其他东西”
Avro是一个单独的项目,它的模式模型允许嵌套结构和演化。据我所知,Hadoop序列化没有概念模式演变。
节俭是另一种面向行的序列化格式,通常出现在Hadoop项目中。
其他(柱状)数据存储格式包括Parquet和ORC
https://stackoverflow.com/questions/49731095
复制相似问题