关于使用DataProcPySparkOperator的问题。下面是我在DAG中添加的任务:
run_pyspark_job= DataProcPySparkOperator(
task_id='pyspark_operator_test',
main='/root/airflow/dags/basic_eda.py',
job_name='test_pyspark_job',
cluster_name='test-cluster-20180502',
gcp_conn_id='google_cloud_default',
region='global',
zone='us-central1-b'
)出现以下错误:
projects/project_id/regions/global/clusters/cluster-1“:googleapiclient.errors.HttpError:id/regions/global/jobs:submit?alt=json返回"Not :集群”
它没有指向正确的集群。
请给我建议一下我遗漏了什么?
发布于 2018-05-03 11:25:14
在1.9气流中改变了参数。为了指定集群id,使用了dataproc_cluster参数,该参数在1.9中更改为cluster_name。
因此,如果您使用airflow<=‘1.8.2’,那么使用dataproc_cluster来指定cluster_id ('test-cluster-20180502')。
检查:https://github.com/apache/incubator-airflow/blob/master/UPDATING.md#deprecated-features
https://stackoverflow.com/questions/50134110
复制相似问题