首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >更新和插入

更新和插入
EN

Stack Overflow用户
提问于 2018-08-25 08:08:40
回答 1查看 119关注 0票数 2

我们在HDFS中接收每小时的JSON数据。数据的大小大约为每小时5-6 GB。

  • 在最后一个表中找到匹配的记录后,更新(或)删除
  • 如果记录在最终数据集中不匹配,则插入记录。

我们已经尝试了用例的Hive合并选项。这需要一个多小时来处理蜂巢中的合并操作。是否有其他替代方法来解决case.So的使用--基本上每天我们要将150 do的数据添加到蜂箱中,每隔一天我们必须扫描150 do的数据,以确定是否需要进行更新/插入

什么是对大型数据集执行Upserts(Hadoop中的更新和插入)的最佳方法。蜂巢或HBase或Nifi。什么是流动。

EN

回答 1

Stack Overflow用户

发布于 2018-08-26 08:20:41

我们正在为类似的用例使用uber的连帽衫库。它使用火花库与分区和布卢姆过滤器索引,以加快合并。它支持蜂巢和普雷斯特。

DeltaStreamer工具可用于快速设置和初始测试

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52015270

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档