所以,我已经完成了在Dataflow中创建一个工作。此工作处理ETL从PostgreSQL到BigQuery。所以,我不知道用气流来做调度。如何利用气流来共享作业数据流?
谢谢
发布于 2022-12-02 10:08:21
您可以使用云调度器 (完全托管cron作业调度程序)/ 云作曲家 (构建在Airflow上的完全托管工作流编排服务)来调度数据流批处理作业。
要使用Cloud进行调度,请参阅用云调度程序调度数据流批处理作业
要使用Composer进行计划,请参阅使用DataflowTemplateOperator用Composer启动数据流管道。
有关使用Java/Python在气流中运行数据流作业的示例和更多方法,请参阅谷歌云数据流运营商
发布于 2022-12-02 10:10:18
在Airflow DAG中,可以使用schedule_interval param定义cron和调度:
with airflow.DAG(
my_dag,
default_args=args,
schedule_interval="5 3 * * *"
# Trigger Dataflow job with an operator
launch_dataflow_job = BeamRunPythonPipelineOperator(
runner='DataflowRunner',
py_file=python_main_file,
task_id='launch_dataflow_job',
pipeline_options=dataflow_job_options,
py_system_site_packages=False,
py_interpreter='python3',
dataflow_config=DataflowConfiguration(
location='region'
)
)
launch_dataflow_job
......https://stackoverflow.com/questions/74653520
复制相似问题