是否有关于数百个工作节点部署Dask.distributed的传闻?分发是否意味着要扩展到这样大小的集群?
发布于 2016-10-26 02:21:38
是
我所见过的最大的Dask.distributed集群大约有1000个节点。理论上我们可以做得更大,但数量不多。
当前的限制是调度程序在每个任务中产生大约200微秒的开销。这意味着每秒大约有5000项任务。如果您的每项任务花费大约1秒时间,那么调度程序就可以饱和大约5000内核。
历史上,我们遇到了其他限制,比如打开文件、句柄限制等等。所有这些都已经清理到我们所看到的规模(1000个节点),而且通常情况下,在Linux或OSX上都很好。Windows上的Dask调度程序停止在低的数百个节点中进行缩放(尽管您可以在Windows工作人员中使用Linux调度程序)。当我们扩展到10k节点时,看到其他问题出现,我不会感到惊讶。
简而言之,您可能不希望使用Dask来替换百万核心的Big或Google上的MPI工作负载。否则你可能没事。
https://stackoverflow.com/questions/40252584
复制相似问题