首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大数据表的版本控制(冰山)

大数据表的版本控制(冰山)
EN

Stack Overflow用户
提问于 2022-10-27 07:34:26
回答 2查看 40关注 0票数 0

我要在一个数据湖的顶部建一张冰山的桌子。这些表用于报告工具。我正在试图找出在CI/CD过程中控制对这些表的版本/部署更改的最佳方法。我可以在Iceberg表中添加一列。为此,我必须编写一个ALTER TABLE语句,将其保存到git存储库中,并通过CI/CD管道进行部署。表可以通过AWS Glue目录访问。我在google上找不到很多关于这方面的信息,所以如果有人能分享一些知识,我会非常感激的。

干杯。

冰山表的版本控制。

EN

回答 2

Stack Overflow用户

发布于 2022-11-01 07:04:51

同意@。这只是一个补充。有时,表更改被视为任务版本更改的一部分。也就是说,表更改语句ALTER TABLE被绑定到任务升级。任务有时会自动部署。因此,它通常首先执行一个表更改语句,然后部署一个新任务。如果改变具有破坏性,那么我们需要先停止旧任务,然后部署新任务。相应的升级,我们也有一个回滚脚本,当然,对应的表更改语句。

票数 1
EN

Stack Overflow用户

发布于 2022-10-30 18:42:52

谢谢你问这个问题。我不认为有明确的方法可以做到这一点。在实践中,我看到大多数人把这作为写在Iceberg桌子上的工作的一部分。通过这种方式,您可以确保使用新作业的新版本立即填充新列。如果不执行任何中断更改(例如删除列),则下游作业不会中断。希望这能有所帮助!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74218356

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档