首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理非结构化数据,而Hive不能?

如何处理非结构化数据,而Hive不能?
EN

Stack Overflow用户
提问于 2013-01-12 11:16:08
回答 2查看 7.1K关注 0票数 3

根据和其他参考资料,Pig在处理非结构化数据方面优于Hive。因此,数据首先用猪清洗,然后用蜂巢处理。

但是,在数据工厂中,数据可能还没有处于良好的标准化状态。这使得Pig也非常适合这个用例,因为它支持具有部分或未知模式的数据,以及半结构化或非结构化数据。

我想更多地了解猪猪如何处理非结构化数据,而Hive却不能。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-01-12 17:34:04

猪是构建来处理模式少的数据sets..whereas在蜂箱中,我们执行一个模式,是存储在德比或可以配置为存储在mysql..Now,它是不清楚你在寻找什么!

票数 2
EN

Stack Overflow用户

发布于 2014-03-13 22:17:02

Pig和Hive的主要区别在于,Pig是一种数据流语言,而Hive是一种声明性语言。可以这样说,Pig可以处理没有定义模式的非结构化数据,而Hive需要一个schema.Also,在某些情况下,Pig还可以用于将数据与模式连接起来,从而使其优于Hive。相反,Hive将Hadoop转换为数据仓库,并充当SQL方言。最后,您可能想了解Jaql,这是另一种数据流语言。与Pig不同,它的原生数据结构格式是JSON。类似地,Jaql不需要模式。希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14292802

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档