我使用来测量我的CUDA程序的性能。
分析器的结果显示了cudaMemset函数的两个不同的结果。
我想知道这两个有什么区别?

发布于 2012-03-11 07:09:23
我猜想memset128内核完成了大部分工作,而memset32_post内核清理了剩余的部分,因为您使用的大小不是128的倍数。
没有什么好担心的,它只是试图以尽可能高效的方式实现memset,尽管我会尝试在内部循环中避免memset (在任何处理器上)。如果你真的担心这件事,你可能会过度分配。
https://stackoverflow.com/questions/9648534
复制相似问题