文章/答案/技术大牛

发布

社区首页 >问答首页 >Azure Synapse .管道.复制数据.没有表的增量负载

问Azure Synapse .管道.复制数据.没有表的增量负载
EN

Stack Overflow用户

提问于 2022-07-12 09:50:36

回答 1查看 365关注 0票数 0

我使用一个非常简单的体系结构将数据从外部源复制到Azure 2中，并通过一个无服务器池(在其中执行一些聚合)将其服务于PowerBI。

对于初始负载，我使用了CopyData活动(同步管道)，并将数据存储在拼花文件中。

由于parquet / ADLS2不支持对文件的更新操作，所以我正在寻找创建增量加载(水印处理)的最佳实践，而无需使用额外的数据库来查询控件/水印表并运行存储过程来更新上一次运行日期。

以前有人碰过这个吗？谢谢!

PS:我首先检查了这里的最佳实践：https://learn.microsoft.com/en-us/azure/data-factory/tutorial-incremental-copy-overview

azure-data-factory

azure-synapse

incremental-load

azure

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-07-12 10:58:49

Serverless池可以使用CETAS命令将数据写入ADLS。如果从源加载任何增量插入、更新或删除到拼花文件，则可以使用CETAS将旧表与增量更改完全连接，并在新文件夹中创建新表。它可能需要与Synapse管道进行少量的编排，以删除旧文件夹并在进程结束时重命名新文件夹。我们以前在Synapse管道和Serverless中使用过这种精确的方法，它可以很好地处理中等大小的数据。

我不会使用它来处理TB大小的数据，因为您每天都在为表完全重写拼花文件。在这种情况下，我将使用数据库或突触星火计算来维护Delta表，作为ADLS的最终存储，因为Delta支持更新。Serverless仍然可以查询三角洲湖表。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72950336

复制

相似问题

问Azure Synapse .管道.复制数据.没有表的增量负载
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Azure Synapse .管道.复制数据.没有表的增量负载EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Azure Synapse .管道.复制数据.没有表的增量负载
EN