我试图解决的问题如下:
我的C++串行代码是在一个大的2D矩阵上计算的。为了优化这个过程,我希望拆分这个大的2D矩阵,并使用MPI在4个节点(比如)上运行。节点之间发生的唯一通信是在每个时间步长结束时共享边值。每个节点与其邻居共享边缘阵列数据Ai。
基于对MPI的阅读,我有以下计划要实现。
if (myrank == 0)
{
for (i= 0 to x)
for (y= 0 to y)
{
C++ CODE IMPLEMENTATION
....
MPI_SEND(A[x][0], A[x][1], A[x][2], Destination= 1.....)
MPI_RECEIVE(B[0][0], B[0][1]......Sender = 1.....)
MPI_BARRIER
}
if (myrank == 1)
{
for (i = x+1 to xx)
for (y = 0 to y)
{
C++ CODE IMPLEMENTATION
....
MPI_SEND(B[x][0], B[x][1], B[x][2], Destination= 0.....)
MPI_RECEIVE(A[0][0], A[0][1]......Sender = 1.....)
MPI BARRIER
}我想知道我的方法是否正确,也希望对其他MPI函数的实现有任何指导。
谢谢,阿什温。
发布于 2011-05-06 01:16:34
我只想稍微扩大一下Joel的观点:
如果您将数组分配为连续的,这会容易得多(C的“多维数组”不会自动提供给您:)
int **alloc_2d_int(int rows, int cols) {
int *data = (int *)malloc(rows*cols*sizeof(int));
int **array= (int **)malloc(rows*sizeof(int*));
for (int i=0; i<rows; i++)
array[i] = &(data[cols*i]);
return array;
}
/*...*/
int **A;
/*...*/
A = alloc_2d_init(N,M);然后,可以使用以下命令发送和接收整个NxM数组
MPI_Send(&(A[0][0]), N*M, MPI_INT, destination, tag, MPI_COMM_WORLD);完成后,使用以下命令释放内存
free(A[0]);
free(A);此外,MPI_Recv是阻塞接收,而MPI_Send可以是阻塞发送。这意味着,根据Joel的观点,你绝对不需要障碍。此外,它还意味着,如果您有如上所述的发送/接收模式,则可能会使自己陷入死锁状态--每个人都在发送,没有人在接收。更安全的是:
if (myrank == 0) {
MPI_Send(&(A[0][0]), N*M, MPI_INT, 1, tagA, MPI_COMM_WORLD);
MPI_Recv(&(B[0][0]), N*M, MPI_INT, 1, tagB, MPI_COMM_WORLD, &status);
} else if (myrank == 1) {
MPI_Recv(&(A[0][0]), N*M, MPI_INT, 0, tagA, MPI_COMM_WORLD, &status);
MPI_Send(&(B[0][0]), N*M, MPI_INT, 0, tagB, MPI_COMM_WORLD);
}另一种更通用的方法是使用MPI_Sendrecv
int *sendptr, *recvptr;
int neigh = MPI_PROC_NULL;
if (myrank == 0) {
sendptr = &(A[0][0]);
recvptr = &(B[0][0]);
neigh = 1;
} else {
sendptr = &(B[0][0]);
recvptr = &(A[0][0]);
neigh = 0;
}
MPI_Sendrecv(sendptr, N*M, MPI_INT, neigh, tagA, recvptr, N*M, MPI_INT, neigh, tagB, MPI_COMM_WORLD, &status);或非阻塞发送和/或接收。
发布于 2011-05-06 01:01:42
首先,你不需要那么多的障碍;其次,你真的应该将你的数据作为一个单独的块发送,因为多个发送/接收阻塞它们的方式会导致很差的性能。
https://stackoverflow.com/questions/5901476
复制相似问题