首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当循环遍历许多文件时,如何提高gcs引信的吞吐量?

当循环遍历许多文件时,如何提高gcs引信的吞吐量?
EN

Stack Overflow用户
提问于 2019-07-17 19:45:13
回答 1查看 957关注 0票数 0

我正在处理超过20万个netcdf文件,每个文件是17 MB。它们都在谷歌的云存储桶中,我正试图找到一种使用gcs引信来提高吞吐量的方法。

我正在使用虚拟机和gcs引信来访问这些文件。我查看了gsutil,但在Google文档中看到“单个I/O流的运行速度与gsutil差不多。”使用gcs引信,NCL脚本将花费超过8天,这是太长。对如何提高吞吐量有什么建议吗?谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-18 10:42:04

优化传输性能您必须考虑:

  1. 将云存储桶和Compute Engine VM实例定位在同一区域。
  2. 通过创建具有更多vCPU核的实例来增加计算引擎VM实例网络带宽
  3. 增加持久磁盘吞吐量
  4. 使用gsutil -r并使用并行运行任务的-m选项,您甚至可以设置用于通过parallel_thread_count复制文件的线程数。
  5. 请查看脚本传输上的文档
  6. 在使用gcs引信时,检查是否有为并行传输优化的0.27.0版本。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57083126

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档