我还没有使用德尔塔湖的Change Data Feed,我想知道它是否与我们相关。
我们有以下设置:
Tables
H 110我们将附加的数据合并为E 111银表E 212表示最新的状态-><>H 213/code>H 114/code>我们在银表之上运行查询,连接和聚合它们,从而创建我们的E 115Gold SQL >
目前,我们使用流检查点跟踪新数据。这是非常有效的青铜->银阶段,因为它只是附加。
据我所知,CDF可以提高我们的银->黄金作业的性能,因为在流检查点中,如果一行改变了,仍然需要读取整个拼花文件,用CDF只需读取表的更改,对吗?
此外,是否有理由使用CDF而不是 -> ->银作业中的流检查点?
发布于 2022-09-16 00:51:29
据我理解,
可以提高我们的银->黄金工作的性能,因为在流检查点中,如果一行改变了,您仍然必须读取整个地板文件,而用CDF您只需读取表更改,对吗?
是的,原则上是正确的。这里的细微之处在于,您提到的黄金表是joins+aggregates,因此您实际上可能需要所有这些不变的数据,这取决于您拥有的聚合类型,以及是否需要维护引用完整性。
也有理由使用CDF而不是铜->银作业中的流检查点吗?
只要这个阶段是附加的-不。实际上,如果要在这个表上启用CDF,就不会编写任何独立的CDF文件,因此您只需要读取当前正在读取的相同的数据文件,但是附加了一些额外的元数据(更改操作、版本、时间戳)(这可能有用吗?)
https://stackoverflow.com/questions/73728584
复制相似问题