文章/答案/技术大牛

发布

社区首页 >问答首页 >在MRJob中连接配置单元

问在MRJob中连接配置单元
EN

Stack Overflow用户

提问于 2016-11-29 07:09:10

回答 1查看 192关注 0票数 0

场景是，我需要处理一个文件(输入)，并且对于每个记录，我需要检查输入文件中的某些字段是否与Hadoop集群中存储的字段匹配。

我们的想法是使用MRJob处理输入文件，并使用HIVE从hadoop集群获取数据。我想知道是否可以在MRJob模块内连接HIVE。如果是这样的话，该怎么做呢？

如果不是，那么满足我的需求的理想方法是什么？

我是Hadoop、MRJob和Hive的新手。

请提供一些建议。

hadoop

hive

mrjob

回答 1

Stack Overflow用户

发布于 2016-11-29 08:18:13

“匹配存储在Hadoop集群中的字段。”-->您的意思是说，您需要搜索字段是否也存在于此文件中？

大约总共有多少个文件需要扫描？

一种解决方案是加载HBase表中的每一项，对于输入文件中的每一条记录，从表中“获取”记录。如果GET成功，则该记录存在于HDFS中的其他位置，否则不存在。您需要为每个HBase记录提供一个唯一的标识符，并且相同的标识符也应该存在于您的输入文件中。

您也可以连接到Hive，但模式必须是严格的，以便所有HDFS文件都能够加载到单个Hive表中。HBase实际上并不关心列(只需要ColumnFamilies )。与HBase相比，MapReduce和Hive的另一个缺点是速度较低(接近实时)。

希望这能有所帮助。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40855118

复制

相似问题

问在MRJob中连接配置单元
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在MRJob中连接配置单元EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在MRJob中连接配置单元
EN