文章/答案/技术大牛

发布

社区首页 >问答首页 >如果创建了xarray.open_mfdataset客户端，dask.distributed ()将无法工作

问如果创建了xarray.open_mfdataset客户端，dask.distributed ()将无法工作
EN

Stack Overflow用户

提问于 2021-06-02 22:17:55

回答 1查看 385关注 0票数 1

我有个奇怪的问题，我希望能得到一些意见。基本上，我在AWS上运行一个笔记本，并在S3上(与s3fs一起)用xr.open_mfdataset打开一些‘m 16卫星数据。

如果我根本不使用dask，这很好，数据集是在几分钟内构建的。

但是，如果我在打开文件之前创建一个dask.distributed客户机，open_mfdataset就会挂起，似乎永远挂起。

我做了一些简单的笔记本，可以在这里探索，以及一个活页夹链接，可以用来运行它们。如有任何意见，将不胜感激！

故障排除

python-xarray

dask-distributed

python

jupyter

dask

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-03 08:37:51

以下是你所追求的目标吗？

ds = xr.open_mfdataset(file_objs, combine='nested', concat_dim='t', data_vars='minimal', coords='minimal', compat='override')

请注意，使用这些设置，非dask版本将在35秒内加载，而dask似乎在90秒的范围内加载。我还没有处理过这些数据，所以不知道这里是否存在这种情况，但是很有可能对大量的文件(现在是24个)来说，扩展的优势是可以发挥作用的。

这是基于文档中的指导

通常，这些变量中的几个需要沿着维度(例如“时间”)连接起来，而其他变量在整个数据集中是相等的(忽略浮点差异)。该命令沿着"time“维度连接变量，但只连接那些已经包含"time”维度的变量(data_vars='minimal'，coords='minimal')。缺少"time“维度的变量来自第一个数据集(compat='override')。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67813208

复制

相似问题

问如果创建了xarray.open_mfdataset客户端，dask.distributed ()将无法工作
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果创建了xarray.open_mfdataset客户端，dask.distributed ()将无法工作EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如果创建了xarray.open_mfdataset客户端，dask.distributed ()将无法工作
EN