在mapreduce处理过程中,我需要在一次地图执行中多次查找hbase。这正成为一个瓶颈,因为hbase正变得非常缓慢。在一个映射过程中,查找是多次的,例如每行包含多个雇员is,员工信息存储在hbase上。
还有什么可以替代的呢?hbase对于这样的处理应该是缓慢的吗?是否最好将Hbase作为hdfs文本,然后进行连接而不是查找。
发布于 2016-03-12 21:15:19
在不知道你的工作到底在做什么的情况下,要给出一个完美的答案有点困难,但我会考虑使用TableInputFormatBase (与MultipleInputs一起将HBase表与其他数据一起读取到映射器中),然后加入员工ID。这可能意味着,你现在需要两个乔布斯,但这可能比多次查找更快,而且肯定会扩展得更好。
https://stackoverflow.com/questions/35961338
复制相似问题