首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >您能使用多个EMR集群运行事务性数据池(Hudi、Delta Lake)吗?

您能使用多个EMR集群运行事务性数据池(Hudi、Delta Lake)吗?
EN

Stack Overflow用户
提问于 2021-10-16 02:19:46
回答 1查看 285关注 0票数 3

我正在研究几种“事务性数据湖”技术,如Apache、Delta、AWS格式治理表。

除了后者,我看不出它们在多集群环境中是如何工作的。我以s3为基础进行存储,并希望增量地修改我的数据池,在那里,可能有许多集群在任何给定的时间都会从该湖读取并写入该湖。这有可能/得到支持吗?压缩和事务处理似乎处于群集状态。因此,您不能使用来自多个不同来源的这些平台来管理事务性数据池。还是我搞错了?

您发现的任何轶事或性能限制都将不胜感激!

EN

回答 1

Stack Overflow用户

发布于 2022-04-09 00:42:38

您可以在Apache上为多个作者启用配置,然后使用锁提供程序,如下所述:控制#启用-多写入

使用AWS DynamoDB锁提供程序的示例:

代码语言:javascript
复制
hoodie.write.lock.provider=org.apache.hudi.aws.transaction.lock.DynamoDBBasedLockProvider
hoodie.write.lock.dynamodb.table
hoodie.write.lock.dynamodb.partition_key
hoodie.write.lock.dynamodb.region

Delta在文档中警告说,多个作者可能导致数据丢失:https://docs.delta.io/latest/delta-storage.html#amazon-s3

从多个火花驱动程序并发写入同一Delta表可能导致数据丢失。

这是一个博客您可能会发现有趣的是,它讨论了Lakehouse并发控制中常见的陷阱。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69592195

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档