MPI标准指出,当并行程序运行在异构环境中时,它们可能对同一数据类型具有不同的表示形式(如用于整数的大端和小端机器),因此在进行点对点通信时可能需要进行数据类型表示转换。我不知道Open MPI如何实现这一点。
例如,目前Open MPI默认使用UCX库,我研究了UCX库和Open MPI的ucx模块的一些代码。然而,对于像MPI_INT这样的连续数据类型,我没有发现任何表示转换。我想知道是因为我错过了这一部分,还是实现没有满足标准?
发布于 2019-02-23 08:38:15
如果你想在一个异构集群上运行一个Open MPI app,你必须使用configure --enable-heterogeneous (这在默认情况下是禁用的)。请记住,这是应该工作的,但它是轻微的测试,主要是因为缺乏兴趣/真正的用例。FWIW,IBM Power现在是小端,Fujitsu正在从Sparc转移到ARM的HPC,所以实际上所有的HPC处理器都是(或很快)小端。
Open MPI使用转换器(参见opal/datatype/opal_convertor.h)在发送数据之前打包数据,并在接收到数据后解包。数据以其当前的字节顺序打包。如果发送方具有不同的字节顺序,则由接收方执行数据转换(例如,交换字节)。
有两种使用UCX的方法:pml/ucx和pml/ob1+btl/ucx,我没有在异构环境中测试过这两种方法。如果您在使用pml/ucx时遇到一些问题,请尝试mpirun --mca pml ob1 ...。
https://stackoverflow.com/questions/54827327
复制相似问题