首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OpenCL、TBB、OpenMP

OpenCL、TBB、OpenMP
EN

Stack Overflow用户
提问于 2011-08-20 03:42:55
回答 3查看 3.2K关注 0票数 0

我在OpenMP、TBB和OpenCL中实现了一些普通的循环应用程序。在所有这些应用程序中,当我只在CPU上运行OpeCL而没有在内核中进行特定的优化时,它的性能也比其他应用程序好得多。OpenMP和TBB也提供了很好的性能,但远远不如OpenCL,这是什么原因呢?因为这两个都是CPU专用框架,应该至少提供与OpenMP/TBB相同的性能。

我的第二个担忧是,当涉及到OpenMP和TBB时,在我的实现中,OpenMP的性能总是比TBB更好,因为我不是那么专业,所以我没有对它进行非常好的优化。OpenMP的性能通常比TBB好是有原因的吗?因为我认为他们两个,甚至OpenCL也在低级使用相同类型的线程池……有什么专家的意见吗?谢谢

EN

回答 3

Stack Overflow用户

发布于 2011-08-20 12:24:47

与TBB和OpenMP相比,OpenCL的一个优势是它可以更好地利用硬件中的单指令多数据并行。一些OpenCL实现将运行您的代码,以便每个工作项在机器的SIMD向量通道中运行,并在单独的核心上运行。根据算法的不同,这可能会提供大量的性能优势。

C编译器也可以利用SIMD并行性的一些优势,使用自动向量化,但C中的内存别名规则使其在某些情况下很难工作。由于OpenCL要求程序员显式地调出工作项并隔离内存访问,因此OpenCL编译器可能更加激进。

最后,这取决于您的代码。人们可以找到一种算法,对于OpenCL、OpenMP或TBB中的任何一个都是最好的。

票数 4
EN

Stack Overflow用户

发布于 2014-09-30 18:03:46

英特尔提供的用于中央处理器和麦克风的OpenCL运行时在幕后使用TBB。它远不只是“低级别的线程池”,因为它利用了TBB提供的复杂的调度和分区算法,以实现更好的负载平衡,从而更好地利用CPU。

至于TBB和OpenMP。通常,这归结为不正确的测量。例如,TBB没有像OpenMP中那样的隐式屏障,因此热身循环是不够的。您必须确保创建了所有线程,并且此开销不包括在您的测量中。另一个例子:有时,编译器无法使用OpenMP向量化的TBB向量化相同的代码。

票数 2
EN

Stack Overflow用户

发布于 2011-08-20 07:39:27

针对给定的硬件编译OpenCL内核。供应商/硬件特定优化的潜力是巨大的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7126611

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档