首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Dask并行工作不会比没有dask更好

Dask并行工作不会比没有dask更好
EN

Stack Overflow用户
提问于 2021-03-06 02:57:37
回答 1查看 48关注 0票数 0

我试着像这样做并行工作:

代码语言:javascript
复制
from dask.distributed import Client
import joblib
from sklearn.feature_extraction.text import TfidfVectorizer

client = Client(processes=False)             # create local cluster

with joblib.parallel_backend('dask'):
    tfidf.fit(corpus)

但CPU使用率是100% - 400%,与不使用Dask时相同。我是不是遗漏了什么?

https://ml.dask.org/joblib.html

EN

回答 1

Stack Overflow用户

发布于 2021-03-08 03:35:22

当要执行的计算释放GIL时,进程内并行将很好地工作,以便多个线程可以同时运行。这适用于许多数值库,如pandas和numpy,如您所链接的示例中所使用的。然而,文本处理很可能使用python解释器,因此GIL会阻止多个线程同时运行-因此CPU利用率为100%,而不是更高。

您可能希望尝试使用进程,这就像更改为

代码语言:javascript
复制
client = Client(processes=True) 

(但有许多配置选项)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66498123

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档