Dask支持哪些分布式文件系统?具体来说,您可以从哪个文件系统中读取dask.dataframe?从Dask文档中,我可以看到HDFS当然是受支持的。是否支持任何其他分布式文件系统,如Ceph等?
我可以在这里找到一些关于支持其他文件系统的想法的讨论:https://github.com/dask/distributed/issues/33,但没有最后的结论,只是HDFS比其他选项“更糟糕”。
谢谢你的帮助!
发布于 2018-05-13 01:09:36
最简单的答案是,如果您可以将文件系统挂载到每个节点,即可以作为本地文件系统访问它,那么您可以使用任何分布式系统--而不需要对任何给定文件块的原始位置进行任何性能优化。
在从元数据服务中获得数据位置的情况下(C年会是这样的),您可以将加载任务限制为仅在数据驻留的机器上运行。这是没有实现,但可能不会太复杂,从用户方面。过去对hdfs也做过类似的事情,但是我们发现优化并不能证明代码的额外复杂性是合理的。
发布于 2018-05-15 12:21:56
Dask目前支持哪些远程文件系统,以及如何支持其他文件系统,请参见以下文档:
https://stackoverflow.com/questions/50299456
复制相似问题