首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >德尔塔湖民防与流动检查点

德尔塔湖民防与流动检查点
EN

Stack Overflow用户
提问于 2022-09-15 09:21:18
回答 1查看 103关注 0票数 0

我还没有使用德尔塔湖的Change Data Feed,我想知道它是否与我们相关。

我们有以下设置:

Tables

  • 原始数据(从DynamoDB更新事件)最终出现在一个暂存区->
  • 中我们清理新数据并将其附加到青铜表->

H 110我们将附加的数据合并为E 111银表E 212表示最新的状态-><>H 213/code>H 114/code>我们在银表之上运行查询,连接和聚合它们,从而创建我们的E 115Gold SQL >

目前,我们使用流检查点跟踪新数据。这是非常有效的青铜->银阶段,因为它只是附加。

据我所知,CDF可以提高我们的银->黄金作业的性能,因为在流检查点中,如果一行改变了,仍然需要读取整个拼花文件,用CDF只需读取表的更改,对吗?

此外,是否有理由使用CDF而不是 -> ->银作业中的流检查点?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-09-16 00:51:29

据我理解,

可以提高我们的银->黄金工作的性能,因为在流检查点中,如果一行改变了,您仍然必须读取整个地板文件,而用CDF您只需读取表更改,对吗?

是的,原则上是正确的。这里的细微之处在于,您提到的黄金表是joins+aggregates,因此您实际上可能需要所有这些不变的数据,这取决于您拥有的聚合类型,以及是否需要维护引用完整性。

也有理由使用CDF而不是铜->银作业中的流检查点吗?

只要这个阶段是附加的-不。实际上,如果要在这个表上启用CDF,就不会编写任何独立的CDF文件,因此您只需要读取当前正在读取的相同的数据文件,但是附加了一些额外的元数据(更改操作、版本、时间戳)(这可能有用吗?)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73728584

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档