首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >丘比特比矮子慢

丘比特比矮子慢
EN

Stack Overflow用户
提问于 2018-07-04 16:22:50
回答 2查看 5.9K关注 0票数 4

我试图用cupy而不是numpy来加速我的python代码。这里的问题是,使用cupy,我的代码变得非常慢。也许我在这个问题上有点天真了。

也许任何人都能在我的代码中找到瓶颈:

代码语言:javascript
复制
import cupy as np
import time as ti

def f(y, t):
    y_ = np.zeros(2 * N_1*N_2) # n: e-6, c: e-5
    for i in range(0, N_1*N_2):
        y_[i] = y[i + N_1*N_2] # n: e-7, c: e-5 or e-6
    for i in range(N_1*N_2):
        sum = -4*y[i] # n: e-7, c: e-7 after some statements e-5
        if (i + 1 in indexes) and (not (i in indi)):
            sum += y[i+1] # n: e-7, c: e-7 after some statements e-5
        if (i - 1) in indexes and (i % N_1 != 0):
            sum += y[i-1] # n: e-7, c: e-7 after some statements e-5
        if i + N_1 in indexes:
            sum += y[i+N_1] # n: e-7, c: e-7 after some statements e-5
        if i - N_1 in indexes:
            sum += y[i-N_1] # n: e-7, c: e-7 after some statements e-5
        y_[i + N_1*N_2] = sum

    return y_

def k_1(y, t, h):
    return np.asarray(f(y, t)) * h

def k_2(y, t, h):
    return np.asarray(f(np.add(np.asarray(y) , np.multiply(1/2 , k_1(y, t, h))), t + 1/2 * h)) * h

# k_2, k_4 look just like k_2, may be with an 1/2 here or there

# some init stuff is happening here

while t < T_end:
    # also some magic happening here which is just data saving
    y = np.asarray(y) + 1/6*(k_1(y, t, m) + 2*k_2(y, t, m) + 2*k_3(y, t, m) + k_4(y, t, m))
    t += m

编辑,我试图对我的代码进行基准测试,下面是一些结果,它们可以被看作是代码中的注释。每个数字保持一条线。单位是秒。n: Numpy,c:CuPy,我主要是给出订单的粗略估计。另外,我测试了

代码语言:javascript
复制
np.multiply # n: e-6, c: e-5

代码语言:javascript
复制
np.add # n: e-5 or e-6, c: 0.005 or e-5
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-07-04 19:03:46

代码之所以慢并不是因为numpy慢,而是因为您调用了许多( python )函数,而调用函数(以及迭代和访问对象,基本上是python中的所有内容)在python中都是缓慢的。因此,cupy不会对您有所帮助(但可能会损害性能,因为它必须做更多的设置,例如将数据复制到gpu)。如果您能够使用更少的python函数(如另一个答案那样的矢量化),这将极大地加速您的代码(您可能不需要cupy)。

您还可以查看南巴,它在本机代码中使用llvm编译代码。如果您这样做,一定要阅读一些文档化并使用nopython=True,否则您将只切换慢速numba代码的慢立方体代码。

票数 1
EN

Stack Overflow用户

发布于 2018-07-04 18:52:16

您的代码示例不起作用,因为您没有在任何地方定义N_1N_2indexesindi。此外,您在代码中的评论似乎无助于帮助其他人理解正在发生的事情。您的代码可能不会受益于numba/cupy,因为您还没有将代码中的操作向量化。从目前的代码工作方式来看,列表可能与numpy数组一样快。

如果你摆脱了你的for循环和改变

代码语言:javascript
复制
y_ = np.zeros(2 * N_1*N_2)
for i in range(0, N_1*N_2):
    y_[i] = y[i + N_1*N_2] 

代码语言:javascript
复制
n = N1*N2
y_ = np.zeros(2*n)
y_[:n] = y[n:2*n]

诸如此类,您将大大加快代码的速度。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51177788

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档