我正在尝试使用Azure数据仓库从随需即用的HD集群中执行激发作业。
文档清楚地表明,ADF(v2)不支持随需应变indicates集群的datalake链接服务,并且必须从复制活动将数据复制到blob,而不是执行作业。但是这个工作似乎是一个巨大的资源昂贵的情况下,如果十亿个文件上的数据。是否有任何有效的方法来访问datalake文件,要么是从执行触发作业的python脚本访问,要么是通过任何其他方式直接访问这些文件。
P.S是否有可能从v1那里做类似的事情,如果是,那怎么做?“使用Azure datalake在HDInsight中创建随需应变的Hadoop集群”描述了访问blob存储的随需应变hadoop集群,但我希望按需触发集群访问datalake。
P.P.s .预先谢谢
发布于 2018-01-12 07:13:17
目前,在ADF v2中,我们不支持带有HDI集群的ADLS数据存储。我们计划在未来几个月内再加上这一点。在此之前,您将不得不使用您在上面的文章中提到的解决方案。很抱歉给您带来不便。
发布于 2018-03-05 17:22:31
Blob存储用于随需应变集群将使用的脚本和配置文件。例如,在您编写并存储在附加Blob存储中的脚本中,它们可以从ADLS写入SQLDB。
https://stackoverflow.com/questions/48165947
复制相似问题