文章/答案/技术大牛

发布

社区首页 >问答首页 >更新和插入

问更新和插入
EN

Stack Overflow用户

提问于 2018-08-25 08:08:40

回答 1查看 119关注 0票数 2

我们在HDFS中接收每小时的JSON数据。数据的大小大约为每小时5-6 GB。

在最后一个表中找到匹配的记录后，更新(或)删除
如果记录在最终数据集中不匹配，则插入记录。

我们已经尝试了用例的Hive合并选项。这需要一个多小时来处理蜂巢中的合并操作。是否有其他替代方法来解决case.So的使用--基本上每天我们要将150 do的数据添加到蜂箱中，每隔一天我们必须扫描150 do的数据，以确定是否需要进行更新/插入

什么是对大型数据集执行Upserts(Hadoop中的更新和插入)的最佳方法。蜂巢或HBase或Nifi。什么是流动。

apache-spark

hadoop

hive

updates

apache-nifi

回答 1

Stack Overflow用户

发布于 2018-08-26 08:20:41

我们正在为类似的用例使用uber的连帽衫库。它使用火花库与分区和布卢姆过滤器索引，以加快合并。它支持蜂巢和普雷斯特。

DeltaStreamer工具可用于快速设置和初始测试

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52015270

复制

相似问题

问更新和插入
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更新和插入EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更新和插入
EN