遵循本教程,我可以让任务找到我想在Databricks中运行的笔记本-
notebook_task_params = {
'new_cluster': new_cluster,
'notebook_task': {
'notebook_path': '/Users/airflow@example.com/PrepareData',
},
}但是,是否有一种方法可以告诉任务接受Python项目(或者是车轮文件的路径)?从S3或Artifactory运行它而不是笔记本?
我如何使它工作,以便它将准备生产?我希望创建一个流程,以便在我将更改推到git之后,CI/CD流程将构建该项目,将其部署到S3/Artifactory,并从气流中触发Databricks作业,这将消耗我所部署的项目。有可能吗?
发布于 2022-10-21 12:08:09
Databricks的气流提供者支持Databricks REST提供的所有任务/作业类型。如果要运行Python,则可以使用spark_python_task参数(文档)指定文件的路径。如果您需要运行一个轮毂文件,那么您可以使用spark_submit_task,或者在json参数中提供一个python_wheel_task对象,用于填充提交给REST的数据,因为我们在气流中还不支持这个任务。有关此任务需要指定哪些参数的更多信息,请参考Databricks REST文档。
https://stackoverflow.com/questions/74126502
复制相似问题