首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Azure Synapse .管道.复制数据.没有表的增量负载

Azure Synapse .管道.复制数据.没有表的增量负载
EN

Stack Overflow用户
提问于 2022-07-12 09:50:36
回答 1查看 365关注 0票数 0

我使用一个非常简单的体系结构将数据从外部源复制到Azure 2中,并通过一个无服务器池(在其中执行一些聚合)将其服务于PowerBI。

对于初始负载,我使用了CopyData活动(同步管道),并将数据存储在拼花文件中。

由于parquet / ADLS2不支持对文件的更新操作,所以我正在寻找创建增量加载(水印处理)的最佳实践,而无需使用额外的数据库来查询控件/水印表并运行存储过程来更新上一次运行日期。

以前有人碰过这个吗?谢谢!

PS:我首先检查了这里的最佳实践:https://learn.microsoft.com/en-us/azure/data-factory/tutorial-incremental-copy-overview

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-07-12 10:58:49

Serverless池可以使用CETAS命令将数据写入ADLS。如果从源加载任何增量插入、更新或删除到拼花文件,则可以使用CETAS将旧表与增量更改完全连接,并在新文件夹中创建新表。它可能需要与Synapse管道进行少量的编排,以删除旧文件夹并在进程结束时重命名新文件夹。我们以前在Synapse管道和Serverless中使用过这种精确的方法,它可以很好地处理中等大小的数据。

我不会使用它来处理TB大小的数据,因为您每天都在为表完全重写拼花文件。在这种情况下,我将使用数据库突触星火计算来维护Delta表,作为ADLS的最终存储,因为Delta支持更新。Serverless仍然可以查询三角洲湖表

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72950336

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档