我正在研究几种“事务性数据湖”技术,如Apache、Delta、AWS格式治理表。
除了后者,我看不出它们在多集群环境中是如何工作的。我以s3为基础进行存储,并希望增量地修改我的数据池,在那里,可能有许多集群在任何给定的时间都会从该湖读取并写入该湖。这有可能/得到支持吗?压缩和事务处理似乎处于群集状态。因此,您不能使用来自多个不同来源的这些平台来管理事务性数据池。还是我搞错了?
您发现的任何轶事或性能限制都将不胜感激!
发布于 2022-04-09 00:42:38
您可以在Apache上为多个作者启用配置,然后使用锁提供程序,如下所述:控制#启用-多写入
使用AWS DynamoDB锁提供程序的示例:
hoodie.write.lock.provider=org.apache.hudi.aws.transaction.lock.DynamoDBBasedLockProvider
hoodie.write.lock.dynamodb.table
hoodie.write.lock.dynamodb.partition_key
hoodie.write.lock.dynamodb.regionDelta在文档中警告说,多个作者可能导致数据丢失:https://docs.delta.io/latest/delta-storage.html#amazon-s3
从多个火花驱动程序并发写入同一Delta表可能导致数据丢失。
这是一个博客您可能会发现有趣的是,它讨论了Lakehouse并发控制中常见的陷阱。
https://stackoverflow.com/questions/69592195
复制相似问题