在HDFS上使用LZO Protobuf数据时,有没有使用Scalding的建议?
我正在尝试读取以二进制Protobuf格式存储的文件,并使用Scalding将其压缩为LZO格式。我们可以使用Elephantbird来读取这些文件吗?如有任何建议,我们将不胜感激!
我已经看过LzoTraits和LzoProtobufScheme了?但是我不确定我应该如何使用它来读取数据?任何例子都是很棒的!
发布于 2014-02-15 04:27:33
下面是一个示例:
case class SomeProto() extends FixedPathSource("/my/greatData/*")
with LzoProtobuf[MyProtoClassHere] {
override def column = classOf[MyProtoClassHere]
}您可以以类似的方式与其他类型的抽象基础源代码(如TimePathedSource或MostRecentGoodSource)混合。如果您想使用Hadoop-inside- cascading -local技巧,您可以混合使用with LocalTapSource (如果您不在级联本地模式下运行,则不需要此技巧)。
https://stackoverflow.com/questions/21104710
复制相似问题