首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从joblib产生的中间结果

从joblib产生的中间结果
EN

Stack Overflow用户
提问于 2016-07-20 14:20:50
回答 3查看 2.8K关注 0票数 5

我正在尝试学习joblib模块,以替代python中的内置multiprocessing模块。我习惯于使用multiprocessing.imap在可迭代的基础上运行一个函数,并在结果出现时返回结果。在这个最小的工作示例中,我想不出如何使用joblib:

代码语言:javascript
复制
import joblib, time

def hello(n):
    time.sleep(1)
    print "Inside function", n
    return n

with joblib.Parallel(n_jobs=1) as MP:

    func = joblib.delayed(hello)
    for x in MP(func(x) for x in range(3)):
        print "Outside function", x

其中的指纹:

代码语言:javascript
复制
Inside function 0
Inside function 1
Inside function 2
Outside function 0
Outside function 1
Outside function 2

我想看看输出:

代码语言:javascript
复制
Inside function 0
Outside function 0
Inside function 1
Outside function 1
Inside function 2
Outside function 2

或者类似的东西,表明可迭代的MP(...)没有等待所有的结果完成。对于更长的演示更改,n_jobs=-1range(100)

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2017-03-31 14:30:42

例如,要从joblib获得立即的结果:

代码语言:javascript
复制
from joblib._parallel_backends import MultiprocessingBackend

class ImmediateResult_Backend(MultiprocessingBackend):
    def callback(self, result):
        print("\tImmediateResult function %s" % (result))

    # Overload apply_async and set callback=self.callback
    def apply_async(self, func, callback=None):
        applyResult = super().apply_async(func, self.callback)
        return applyResult

joblib.register_parallel_backend('custom', ImmediateResult_Backend, make_default=True)

with joblib.Parallel(n_jobs=2) as parallel:
    func = parallel(delayed(hello)(y) for y in range(3))
    for f in func:
        print("Outside function %s" % (f))

输出

注意:我在def hello(...)中使用def hello(...),因此processes变得不同了。

内部函数0 内部职能1 ImmediateResult函数 内部职能2 ImmediateResult函数1 ImmediateResult函数2 外部功能0 外部职能1 外部职能2

用Python3.4.2-jbusb:0.11测试的

票数 3
EN

Stack Overflow用户

发布于 2018-09-15 18:16:23

stovfl的回答很优雅,但它只适用于第一批发送的批。在这个例子中,它起作用是因为工人从不挨饿(n_tasks < 2*n_jobs)。要使此方法工作,必须调用最初传递给apply_async的回调。这是BatchCompletionCallBack的一个实例,它调度要处理的下一批任务。

一种可能的解决方案是将任意回调封装在可调用对象中,如以下所示(在joblib==0.11,py36中进行了测试):

代码语言:javascript
复制
from joblib._parallel_backends import MultiprocessingBackend
from joblib import register_parallel_backend, parallel_backend
from joblib import Parallel, delayed
import time

class MultiCallback:
    def __init__(self, *callbacks):
        self.callbacks = [cb for cb in callbacks if cb]

    def __call__(self, out):
        for cb in self.callbacks:
            cb(out)

class ImmediateResultBackend(MultiprocessingBackend):
    def callback(self, result):
        print("\tImmediateResult function %s" % result)

    def apply_async(self, func, callback=None):
        cbs = MultiCallback(callback, self.callback)
        return super().apply_async(func, cbs)

register_parallel_backend('custom', ImmediateResultBackend)

def hello(n):
    time.sleep(1)
    print("Inside function", n)
    return n

with parallel_backend('custom'):
    res = Parallel(n_jobs=2)(delayed(hello)(y) for y in range(6))

输出

代码语言:javascript
复制
Inside function 0
Inside function 1
    ImmediateResult function [0]
    ImmediateResult function [1]
Inside function 3
Inside function 2
    ImmediateResult function [3]
    ImmediateResult function [2]
Inside function 4
    ImmediateResult function [4]
Inside function 5
    ImmediateResult function [5]
票数 6
EN

Stack Overflow用户

发布于 2017-03-29 05:30:24

代码语言:javascript
复制
>>> import joblib, time
>>> 
>>> def hello(n):
...     time.sleep(1)
...     print "Inside function", n
...     return n
... 
>>> with joblib.Parallel(n_jobs=1) as MP:
...     func = joblib.delayed(hello)
...     res = MP(func(x) for x in range(3))  # This is not an iterator.
... 
Inside function 0
Inside function 1
Inside function 2
>>> type(res)
<type 'list'>

你要处理的不是发电机。因此,您不应该期望它将为您提供中间结果。我在文档中读到的任何东西似乎都没有提到其他内容(或者我没有读过相关的部分)。

欢迎您阅读文档并搜索“中间”结果主题:keywords=yes&area=default

我的理解是,每次对parallel的调用都是一个障碍,为了获得中间结果,您需要对处理进行分块:

代码语言:javascript
复制
>>> import joblib, time
>>> 
>>> def hello(n):
...     time.sleep(1)
...     print "Inside function", n
...     return n
... 
>>> with joblib.Parallel(n_jobs=1) as MP:
...     func = joblib.delayed(hello)
...     for chunk in range(3):
...         x = MP(func(y) for y in [chunk])
...         print "Outside function", x
... 
Inside function 0
Outside function [0]
Inside function 1
Outside function [1]
Inside function 2
Outside function [2]
>>> 

如果您想获得技术上的支持,有一个回调机制,但是它只用于进度报告(BatchCompletionCallBack),但是您需要更多的代码更改。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38483874

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档