我可以很容易地使用ADF UI为一个表设置SCD Type2流程,但我没有看到一种简单的方法来扩展到我们已经拥有的数千个数据源。我没有看到任何允许我编写ADF Pipeline/Dataflow并动态配置和触发它们的Java API。我查看了Azure Datalake Gen 2,Azure Databricks等。我在Azure中没有看到任何工具可以让我们取代我们内部构建的UI驱动的数据湖摄取过程。我是不是漏掉了什么?
顺便说一句,我们有一个旧的数据湖应用程序,它从数千个数据源(如数据库、日志文件、web应用程序等)中摄取数据,并使用Java、Spark、Kafka等技术在HDFS (一个典型的架构)上存储数据。我们正在评估Azure Active data Factory以取代它。
发布于 2020-01-11 06:41:16
ADF中内置了一个通用的SCD (类型1,但您可以改装为类型2)示例。转到New > Pipeline from template > Transform with数据流> Generic SCD Type1。
您还可以在管道内对Foreach的无模式表数据集进行迭代,在每次迭代中调用相同的数据流。
最后,如果您仍然希望以编程方式淘汰数据流,在线PowerShell文档的references部分中列出了.NET和Azure SDK。
发布于 2020-01-11 11:12:32
您可以利用Java中的REST API来使用代码构建管道。
https://docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-rest-api
https://stackoverflow.com/questions/59688434
复制相似问题