ARMARM实际上并没有以正确的方式给出这条指令的正确用法,但我发现它在其他地方被用来知道它接受一个地址作为在哪里读取下一个值的提示。我的问题是,给定一个256字节的ldm/stm指令的紧密复制循环,比如r4-r11 x 8,在复制之前,在每个指令对之间预取每个高速缓存线是更好,还是根本不这样做,因为所讨论的memcpy不是同时读取和写入相同的内存区域
在一个研究项目中,我们正在开发一种特殊用途的浮点加速器.在此背景下,我们最初的设想是从ARM主机-> RISCV管理的加速器集群->中获得一种“两级”或“嵌套”卸载,即实际的浮点加速器。因此,我们希望实现类似于以下代码的目标:#pragma omp target // we are on RISCV
#pragma omp target-if是否有可能在OpenMP的未来API规范中加入一种嵌套卸载