我在OpenMP、TBB和OpenCL中实现了一些普通的循环应用程序。在所有这些应用程序中,当我只在CPU上运行OpeCL而没有在内核中进行特定的优化时,它的性能也比其他应用程序好得多。OpenMP和TBB也提供了很好的性能,但远远不如OpenCL,这是什么原因呢?因为这两个都是CPU专用框架,应该至少提供与OpenMP/TBB相同的性能。
我的第二个担忧是,当涉及到OpenMP和TBB时,在我的实现中,OpenMP的性能总是比TBB更好,因为我不是那么专业,所以我没有对它进行非常好的优化。OpenMP的性能通常比TBB好是有原因的吗?因为我认为他们两个,甚至OpenCL也在低级使用相同类型的线程池……有什么专家的意见吗?谢谢
发布于 2011-08-20 12:24:47
与TBB和OpenMP相比,OpenCL的一个优势是它可以更好地利用硬件中的单指令多数据并行。一些OpenCL实现将运行您的代码,以便每个工作项在机器的SIMD向量通道中运行,并在单独的核心上运行。根据算法的不同,这可能会提供大量的性能优势。
C编译器也可以利用SIMD并行性的一些优势,使用自动向量化,但C中的内存别名规则使其在某些情况下很难工作。由于OpenCL要求程序员显式地调出工作项并隔离内存访问,因此OpenCL编译器可能更加激进。
最后,这取决于您的代码。人们可以找到一种算法,对于OpenCL、OpenMP或TBB中的任何一个都是最好的。
发布于 2014-09-30 18:03:46
英特尔提供的用于中央处理器和麦克风的OpenCL运行时在幕后使用TBB。它远不只是“低级别的线程池”,因为它利用了TBB提供的复杂的调度和分区算法,以实现更好的负载平衡,从而更好地利用CPU。
至于TBB和OpenMP。通常,这归结为不正确的测量。例如,TBB没有像OpenMP中那样的隐式屏障,因此热身循环是不够的。您必须确保创建了所有线程,并且此开销不包括在您的测量中。另一个例子:有时,编译器无法使用OpenMP向量化的TBB向量化相同的代码。
发布于 2011-08-20 07:39:27
针对给定的硬件编译OpenCL内核。供应商/硬件特定优化的潜力是巨大的。
https://stackoverflow.com/questions/7126611
复制相似问题