根据这和其他参考资料,Pig在处理非结构化数据方面优于Hive。因此,数据首先用猪清洗,然后用蜂巢处理。
但是,在数据工厂中,数据可能还没有处于良好的标准化状态。这使得Pig也非常适合这个用例,因为它支持具有部分或未知模式的数据,以及半结构化或非结构化数据。
我想更多地了解猪猪如何处理非结构化数据,而Hive却不能。
发布于 2013-01-12 17:34:04
猪是构建来处理模式少的数据sets..whereas在蜂箱中,我们执行一个模式,是存储在德比或可以配置为存储在mysql..Now,它是不清楚你在寻找什么!
发布于 2014-03-13 22:17:02
Pig和Hive的主要区别在于,Pig是一种数据流语言,而Hive是一种声明性语言。可以这样说,Pig可以处理没有定义模式的非结构化数据,而Hive需要一个schema.Also,在某些情况下,Pig还可以用于将数据与模式连接起来,从而使其优于Hive。相反,Hive将Hadoop转换为数据仓库,并充当SQL方言。最后,您可能想了解Jaql,这是另一种数据流语言。与Pig不同,它的原生数据结构格式是JSON。类似地,Jaql不需要模式。希望这能有所帮助。
https://stackoverflow.com/questions/14292802
复制相似问题