我有个奇怪的问题,我希望能得到一些意见。基本上,我在AWS上运行一个笔记本,并在S3上(与s3fs一起)用xr.open_mfdataset打开一些‘m 16卫星数据。
如果我根本不使用dask,这很好,数据集是在几分钟内构建的。
但是,如果我在打开文件之前创建一个dask.distributed客户机,open_mfdataset就会挂起,似乎永远挂起。
我做了一些简单的笔记本,可以在这里探索,以及一个活页夹链接,可以用来运行它们。如有任何意见,将不胜感激!
发布于 2021-06-03 08:37:51
以下是你所追求的目标吗?
ds = xr.open_mfdataset(file_objs, combine='nested', concat_dim='t', data_vars='minimal', coords='minimal', compat='override')请注意,使用这些设置,非dask版本将在35秒内加载,而dask似乎在90秒的范围内加载。我还没有处理过这些数据,所以不知道这里是否存在这种情况,但是很有可能对大量的文件(现在是24个)来说,扩展的优势是可以发挥作用的。
这是基于文档中的指导
通常,这些变量中的几个需要沿着维度(例如“时间”)连接起来,而其他变量在整个数据集中是相等的(忽略浮点差异)。该命令沿着"time“维度连接变量,但只连接那些已经包含"time”维度的变量(data_vars='minimal',coords='minimal')。缺少"time“维度的变量来自第一个数据集(compat='override')。
https://stackoverflow.com/questions/67813208
复制相似问题