我们在HDFS中接收每小时的JSON数据。数据的大小大约为每小时5-6 GB。
我们已经尝试了用例的Hive合并选项。这需要一个多小时来处理蜂巢中的合并操作。是否有其他替代方法来解决case.So的使用--基本上每天我们要将150 do的数据添加到蜂箱中,每隔一天我们必须扫描150 do的数据,以确定是否需要进行更新/插入
什么是对大型数据集执行Upserts(Hadoop中的更新和插入)的最佳方法。蜂巢或HBase或Nifi。什么是流动。
发布于 2018-08-26 08:20:41
我们正在为类似的用例使用uber的连帽衫库。它使用火花库与分区和布卢姆过滤器索引,以加快合并。它支持蜂巢和普雷斯特。
DeltaStreamer工具可用于快速设置和初始测试
https://stackoverflow.com/questions/52015270
复制相似问题