我正在寻找一个用于float4/double4结构的AVX-256/512代码,它可以重载基本的操作*,+,/,-,按标量缩放等,以便在使用float4 / double4编写的代码中从向量操作中获得快速的性能提升。OpenCL将这些数据类型作为内部特性,但是运行在XeonPhi上的c++代码需要利用512位SIMD单元的新实现。
https://stackoverflow.com/questions/38251959
相似问题