我现在有Hadoop-2,猪,蜂箱和HBASE。我有个输入数据。我已经在HDFS中加载了这些数据。我想在这个环境中创建暂存数据。
我的疑问是-
在哪个BigData组件中,我应该创建暂存表(Pig/HIVE/HBASE);这将根据条件输入数据?稍后,我们可能希望运行具有复杂逻辑的MapReduce作业。
请协助
发布于 2015-07-16 10:43:37
如果您有OLAP类型的工作负载,并且不需要实时读/写,Hive:。
HBase: (如果您有OLTP类型的工作负载)。您需要进行实时/流式读写。一些批处理或OLAP处理可以使用MapReduce完成。类似SQL的查询是可以使用Apache凤凰的。
您可以在HIVE和HBase上运行HBase作业。
发布于 2015-07-15 15:31:58
任何你想去的地方。猪不是一种选择,因为它没有亚稳态。如果您需要类似于SQL的查询,请使用单元格。基于您的访问模式的HBase。
当您在数据之上运行一个Hive查询时,它被转换为MR. .
当您在Hive中创建它时,使用Hive查询&而不是使用MR,如果您正在使用MR,那么使用Pig。在数据的基础上创建一个Hive表不会有什么好处。
https://stackoverflow.com/questions/31424102
复制相似问题