每周,我必须从ftp服务器下载一个文件到GCS,然后将该文件从GCS导入到BigQuery。我开始在中实现这个数据流作业。
我把数据流分成三个任务
/home/airflow/gcs/data).我面临从ftp服务器下载文件到Composer数据文件夹的问题。文件的大约大小是20 Gb。我使用wget命令下载文件,确切的命令是wget -c "remote_file_path" -P "/home/airflow/gcs/data"。任务启动良好,但它在30分钟后失败,数据文件夹中的文件大小反映为零字节。我检查了日志,没有发现任何错误。
对于1Gb大小的其他文件,我尝试了同样的程序,它的工作原理就像魅力一样。
我还尝试使用SFTPOperation,运行了一个小时后,我说Key-exchange timed out waiting for key negotiation时出错了。
请帮我弄清楚这个。我也愿意使用其他解决方案来实现这个数据流。
谢谢。
发布于 2020-11-13 11:41:32
更新Composer环境为我们解决了这个问题。
我们也遇到过类似的问题,文件比大约大。1GB。任务在30分钟后失败,/data文件夹中的文件大小为0字节。
我们使用的是Composer版本1.12.3。发布说明(版本1.12.5的https://cloud.google.com/composer/docs/release-notes提到;
改进了GCSfuse稳定性,以解决安装目录不可用的间歇性问题。
因此,我们已经将Composer实例更新为1.13.0版本,它似乎解决了这个问题。
https://stackoverflow.com/questions/64531892
复制相似问题