我刚接触dask,在设置dask分布式集群时,我不确定这样做的最佳实践是什么。在设置工作进程时,让两个工作进程都有4 1GB的内存,还是让8个工作进程都有1 1GB的内存更有效率?它会根据要处理的数据而变化吗?我们有大约5-10 be的拼图格式的数据需要处理。你能建议一种常见的设置开始吗?另外,当工作线程的数量增加时,我们还需要增加调度器的内存吗?
发布于 2019-08-16 01:47:03
这将取决于您将执行的函数的类型。如果你的函数是纯Python的,那么最好是多个worker,否则会被Python的GIL阻塞执行。另一方面,如果您的函数主要使用释放GIL的代码,那么拥有具有多个线程的工作线程可能是有益的。
https://stackoverflow.com/questions/57488592
复制相似问题