文章/答案/技术大牛

发布

问cupy索引很慢
EN

Stack Overflow用户

提问于 2020-05-02 21:24:46

回答 1查看 576关注 0票数 0

我试图对一个大小为16000的大立方体数组执行操作。我发现数学运算(如加法)速度相当快，但使用布尔掩码索引的速度相对较慢。例如，以下代码：

import cupy as cp
arr = cp.random.normal(0, 1, 16000)
%timeit arr * 5
%timeit arr > 0.4
%timeit arr[arr > 0.4] = 0

给我输出：

28 µs ± 950 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
26.5 µs ± 1.61 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
104 µs ± 2.6 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

为什么最终的索引速度至少是原来的两倍？我认为乘法应该比设置数组元素慢。

更新：对于numpy索引不是这样的。将cupy数组更改为numpy，我得到：

6.71 µs ± 373 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
4.42 µs ± 56.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
5.39 µs ± 29.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

cupy

python-3.x

performance

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-02 22:25:01

在第三种情况下，cupy通过一系列操作组合结果：cupy_greater、cupy_copy、inclusive_scan_kernel、inclusive_scan_kernel、add_scan_blocked_sum_kernel、CUDA memcpy DtoH (可能是提供需要设置为零的元素数)、CUDA memset (可能将数组设置为零)，最后是cupy_scatter_update_mask (可能将零分散到它们正确的位置)。

这是一个比arr*5要复杂得多的序列，它似乎在幕后运行了一个cupy_multiply。你也许可以用cupy user-defined kernel做得更好

import cupy as cp
clamp_generic = cp.ElementwiseKernel(
        'T x, T c',
        'T y',
        'y = (y > x)?c:y',
        'clamp_generic')
arr = cp.random.normal(0, 1, 16000)
clamp_generic(0.4, 0, arr)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61566498

复制

相似问题

问cupy索引很慢
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问cupy索引很慢EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问cupy索引很慢
EN