首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法将大文件下载到数据文件夹

无法将大文件下载到数据文件夹
EN

Stack Overflow用户
提问于 2020-10-26 05:23:09
回答 1查看 656关注 0票数 0

每周,我必须从ftp服务器下载一个文件到GCS,然后将该文件从GCS导入到BigQuery。我开始在中实现这个数据流作业。

我把数据流分成三个任务

  • 从ftp服务器下载文件并将其存储在Composer数据文件夹中。(/home/airflow/gcs/data).
  • Move将文件从Composer数据文件夹导入到GCS。
  • 将数据从GCS导入到BigQuery.

我面临从ftp服务器下载文件到Composer数据文件夹的问题。文件的大约大小是20 Gb。我使用wget命令下载文件,确切的命令是wget -c "remote_file_path" -P "/home/airflow/gcs/data"。任务启动良好,但它在30分钟后失败,数据文件夹中的文件大小反映为零字节。我检查了日志,没有发现任何错误。

对于1Gb大小的其他文件,我尝试了同样的程序,它的工作原理就像魅力一样。

我还尝试使用SFTPOperation,运行了一个小时后,我说Key-exchange timed out waiting for key negotiation时出错了。

请帮我弄清楚这个。我也愿意使用其他解决方案来实现这个数据流。

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2020-11-13 11:41:32

更新Composer环境为我们解决了这个问题。

我们也遇到过类似的问题,文件比大约大。1GB。任务在30分钟后失败,/data文件夹中的文件大小为0字节。

我们使用的是Composer版本1.12.3。发布说明(版本1.12.5的https://cloud.google.com/composer/docs/release-notes提到;

改进了GCSfuse稳定性,以解决安装目录不可用的间歇性问题。

因此,我们已经将Composer实例更新为1.13.0版本,它似乎解决了这个问题。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64531892

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档