首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python/Dask支持的分布式文件系统

Python/Dask支持的分布式文件系统
EN

Stack Overflow用户
提问于 2018-05-11 20:01:21
回答 2查看 743关注 0票数 3

Dask支持哪些分布式文件系统?具体来说,您可以从哪个文件系统中读取dask.dataframe?从Dask文档中,我可以看到HDFS当然是受支持的。是否支持任何其他分布式文件系统,如Ceph等?

我可以在这里找到一些关于支持其他文件系统的想法的讨论:https://github.com/dask/distributed/issues/33,但没有最后的结论,只是HDFS比其他选项“更糟糕”。

谢谢你的帮助!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-05-13 01:09:36

最简单的答案是,如果您可以将文件系统挂载到每个节点,即可以作为本地文件系统访问它,那么您可以使用任何分布式系统--而不需要对任何给定文件块的原始位置进行任何性能优化。

在从元数据服务中获得数据位置的情况下(C年会是这样的),您可以将加载任务限制为仅在数据驻留的机器上运行。这是没有实现,但可能不会太复杂,从用户方面。过去对hdfs也做过类似的事情,但是我们发现优化并不能证明代码的额外复杂性是合理的。

票数 1
EN

Stack Overflow用户

发布于 2018-05-15 12:21:56

Dask目前支持哪些远程文件系统,以及如何支持其他文件系统,请参见以下文档:

  • http://dask.pydata.org/en/latest/remote-data-services.html
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50299456

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档