我使用一个非常简单的体系结构将数据从外部源复制到Azure 2中,并通过一个无服务器池(在其中执行一些聚合)将其服务于PowerBI。
对于初始负载,我使用了CopyData活动(同步管道),并将数据存储在拼花文件中。
由于parquet / ADLS2不支持对文件的更新操作,所以我正在寻找创建增量加载(水印处理)的最佳实践,而无需使用额外的数据库来查询控件/水印表并运行存储过程来更新上一次运行日期。
以前有人碰过这个吗?谢谢!
PS:我首先检查了这里的最佳实践:https://learn.microsoft.com/en-us/azure/data-factory/tutorial-incremental-copy-overview
发布于 2022-07-12 10:58:49
Serverless池可以使用CETAS命令将数据写入ADLS。如果从源加载任何增量插入、更新或删除到拼花文件,则可以使用CETAS将旧表与增量更改完全连接,并在新文件夹中创建新表。它可能需要与Synapse管道进行少量的编排,以删除旧文件夹并在进程结束时重命名新文件夹。我们以前在Synapse管道和Serverless中使用过这种精确的方法,它可以很好地处理中等大小的数据。
我不会使用它来处理TB大小的数据,因为您每天都在为表完全重写拼花文件。在这种情况下,我将使用数据库或突触星火计算来维护Delta表,作为ADLS的最终存储,因为Delta支持更新。Serverless仍然可以查询三角洲湖表。
https://stackoverflow.com/questions/72950336
复制相似问题