我想用数据流创建一个使用通用数据流管道的数据管理框架。
我有多个数据提要(原始表)要验证(在10-100之间),并以策划表的形式写入接收器:
有人做过这样的事吗?以上的最佳方法是什么?
我的总体目标是减少验证/管理数据提要的时间,因此我希望为每个提要快速准备验证逻辑,并创建python类或Powershell脚本,计划在一天中的特定时间在通用数据管道上运行它们。
非常感谢
CK
发布于 2021-07-16 07:19:56
若要验证架构,可以拥有与主数据集相同的引用数据集(第一行)。然后,您需要对每个数据集使用“获取元数据”活动,并获取每个数据集的结构。Get元数据活动如下所示:

然后,您可以使用“If条件”活动来匹配两个数据集的结构,使用相等的逻辑函数。您的相同表情将如下所示:

如果两个数据集的结构匹配,则将执行下一个所需的活动(例如将数据集复制到另一个容器)。完整的管道如下所示:

要在插入的数据集上运行的脚本可以使用“自定义”活动执行。您再次需要创建链接服务,它是脚本的对应数据集,您将运行该数据集来验证原始数据。请参阅:https://learn.microsoft.com/en-us/azure/batch/tutorial-run-python-batch-azure-data-factory
要按照您的特定管道来调度管道,Azure数据工厂中的触发器将负责处理。调度触发器将处理您在任何特定时间自动触发管道的要求。
https://stackoverflow.com/questions/68375107
复制相似问题