我正在使用sde (英特尔的模拟器)来运行avx512代码,并且没有实际的硬件来进行基准测试。
由于某些原因,我找不到关于compress + store和compressstore之间的性能比较的信息。
compress + store将存储整个寄存器,而不仅仅是选定的元素,但我对此没有意见。而压缩存储必须屏蔽未选择的元素。
哪个更好?据我所知,英特尔的网站上没有延迟信息。
发布于 2021-09-20 00:13:57
我看错了地方:压缩指令只适用于epi32,而且这些指令有延迟:
_mm256_mask_compress_epi32的延迟是6,_mm256_mask_compressstoreu_epi32的延迟是11,其他的似乎需要VBMI2,这些在我的目标上是不可用的。
所以看起来compress + store应该更好。
https://stackoverflow.com/questions/69247880
复制相似问题