chundoong-lab-ta/SamsungDS22/submissions/HW4/hkyoo.kim/mat_mul.cpp

#include "mat_mul.h"

#include <cstdlib>
#include <cstdio>
#include <omp.h>
#include <mpi.h>

static float *A, *B, *C;
static int M, N, K;
static int num_threads;
static int mpi_rank, mpi_world_size;
int portion,low_bound,upper_bound;
//,start,end,slice,num;
MPI_Status status;
MPI_Request request;
static void mat_mul_omp() {
  // TODO: parallelize & optimize matrix multiplication
 
  int block = 80;
  int KB,MB,NB,kk,k,ii;
 #pragma omp parallel num_threads(num_threads)
        {
  int num = omp_get_thread_num();
  int slice = (upper_bound-low_bound) / num_threads;
  int start = num * slice + low_bound;
  int end = (num == num_threads -1)? upper_bound : ((num+1)*slice+low_bound);

  int iblock = 4;
  int mblock = ((end-start)/iblock) * iblock + start;
  int nblock = (N/block) * block;
  int kblock = (K/block) * block;

  int KU = (kblock/4) * 4;
  #pragma omp parallel for schedule(static) private(KB,MB,NB,kk,k,ii)
   for (kk = 0; kk < kblock; kk+=block) {
   for (ii = start; ii < mblock; ii+=iblock) {
   for (int jj = 0; jj < nblock; jj+=block) {

          if(kk+block < kblock) KB = kk + block;
          else KB = KU;
          for (k = kk; k < KB; k+=4) {
          if(ii+iblock < mblock) MB = ii + iblock;
          else MB = end;
          for (int i = ii; i < MB; i++) {
             float aik = A[i*K + k];
             float aik1 = A[i*K + k+1];
             float aik2 = A[i*K + k+2];
             float aik3 = A[i*K + k+3];
//            float aik4 = A[i*K + k+4];
//            float aik5 = A[i*K + k+5];
//            float aik6 = A[i*K + k+6];
//            float aik7 = A[i*K + k+7];
          if(jj+block < nblock) NB = jj + block;
          else NB = N;
          for (int j = jj; j < NB; j++) {
              C[i * N + j] = C[i*N + j] + aik * B[k * N + j]
                                   + aik1 * B[(k+1) * N + j]
                                   + aik2 * B[(k+2) * N + j]
                                   + aik3 * B[(k+3) * N + j];
//                                   + aik4 * B[(k+4) * N + j]
//                                   + aik5 * B[(k+5) * N + j]
//                                   + aik6 * B[(k+6) * N + j]
//                                   + aik7 * B[(k+7) * N + j];
            }
        }  // i

        } //k

      } // ii

      } // jj


     } // kk

  #pragma omp parallel for schedule(static) private(k)
         for (int i = start; i < end; i++) {
           for(k=KU;k<K;k++){
             float aik = A[i*K + k];
             for(int j=0;j<N;j++){
               C[i*N+j] += aik * B[k*N +j];
             } 
           }
           }
   }  // omp

}


void mat_mul(float *_A, float *_B, float *_C, int _M, int _N, int _K, int _num_threads, int _mpi_rank, int _mpi_world_size) {
  A = _A, B = _B, C = _C;
  M = _M, N = _N, K = _K;
  num_threads = _num_threads, mpi_rank = _mpi_rank,
  mpi_world_size = _mpi_world_size;

  size_t bytes_mk = M*K*sizeof(float);
  size_t bytes_kn = K*N*sizeof(float);
  size_t bytes_mn = M*N*sizeof(float);
if(mpi_rank == 0){

      portion = (M / (mpi_world_size) );
            for(int i =1; i < mpi_world_size; i++){
              low_bound = i * portion;
                if (((i + 1) == mpi_world_size) && ((M % (mpi_world_size)) != 0)) {
                upper_bound = M; 
            } else {
                upper_bound = low_bound + portion; 
            }

            MPI_Isend(&low_bound, 1, MPI_INT, i, 1, MPI_COMM_WORLD, &request);
            //next send the upper bound without blocking, to the intended slave
           MPI_Isend(&upper_bound, 1, MPI_INT, i, 2, MPI_COMM_WORLD, &request);
            //finally send the allocated row portion of [A] without blocking, to the intended slave
           MPI_Isend(&A[low_bound*K], (upper_bound - low_bound) * K, MPI_FLOAT, i, 3, MPI_COMM_WORLD, &request);
            MPI_Isend(&B[0], N * K, MPI_FLOAT, i, 4, MPI_COMM_WORLD, &request);

        }
                low_bound=0;
                upper_bound=portion;
  mat_mul_omp(); 


        for(int i = 1; i < mpi_world_size; i++){
           MPI_Recv(&low_bound, 1, MPI_INT, i, 4, MPI_COMM_WORLD, &status);
          MPI_Recv(&upper_bound, 1, MPI_INT, i, 5, MPI_COMM_WORLD, &status);
          MPI_Recv(&C[low_bound*N], (upper_bound - low_bound) * N, MPI_FLOAT, i, 6, MPI_COMM_WORLD, &status);
        }

    }

  
      else{
        MPI_Recv(&low_bound, 1, MPI_INT, 0, 1, MPI_COMM_WORLD, &status);
        //next receive upper bound from the master
       MPI_Recv(&upper_bound, 1, MPI_INT, 0, 2, MPI_COMM_WORLD, &status);
        //finally receive row portion of [A] to be processed from the master
  A = (float*)malloc(bytes_mk);
  B = (float*)malloc(bytes_kn);
  C = (float*)malloc(bytes_mn);
      MPI_Recv(&A[low_bound*K], (upper_bound - low_bound) * K, MPI_FLOAT, 0, 3, MPI_COMM_WORLD, &status);
       MPI_Recv(&B[0], N * K, MPI_FLOAT, 0, 4, MPI_COMM_WORLD, &status);


 mat_mul_omp(); 

        MPI_Isend(&low_bound, 1, MPI_INT, 0, 4, MPI_COMM_WORLD,&request);
        MPI_Isend(&upper_bound, 1, MPI_INT, 0, 5, MPI_COMM_WORLD,&request);
        MPI_Isend(&C[low_bound*N], (upper_bound - low_bound) * N, MPI_FLOAT, 0, 6, MPI_COMM_WORLD, &request);

      free(A);
      free(B);
      free(C);
      }
  
}
. 2022-09-29 18:01:45 +09:00			`#include "mat_mul.h"`

			`#include <cstdlib>`
			`#include <cstdio>`
			`#include <omp.h>`
			`#include <mpi.h>`

			`static float A, B, *C;`
			`static int M, N, K;`
			`static int num_threads;`
			`static int mpi_rank, mpi_world_size;`
			`int portion,low_bound,upper_bound;`
			`//,start,end,slice,num;`
			`MPI_Status status;`
			`MPI_Request request;`
			`static void mat_mul_omp() {`
			`// TODO: parallelize & optimize matrix multiplication`

			`int block = 80;`
			`int KB,MB,NB,kk,k,ii;`
			`#pragma omp parallel num_threads(num_threads)`
			`{`
			`int num = omp_get_thread_num();`
			`int slice = (upper_bound-low_bound) / num_threads;`
			`int start = num * slice + low_bound;`
			`int end = (num == num_threads -1)? upper_bound : ((num+1)*slice+low_bound);`

			`int iblock = 4;`
			`int mblock = ((end-start)/iblock) * iblock + start;`
			`int nblock = (N/block) * block;`
			`int kblock = (K/block) * block;`

			`int KU = (kblock/4) * 4;`
			`#pragma omp parallel for schedule(static) private(KB,MB,NB,kk,k,ii)`
			`for (kk = 0; kk < kblock; kk+=block) {`
			`for (ii = start; ii < mblock; ii+=iblock) {`
			`for (int jj = 0; jj < nblock; jj+=block) {`

			`if(kk+block < kblock) KB = kk + block;`
			`else KB = KU;`
			`for (k = kk; k < KB; k+=4) {`
			`if(ii+iblock < mblock) MB = ii + iblock;`
			`else MB = end;`
			`for (int i = ii; i < MB; i++) {`
			`float aik = A[i*K + k];`
			`float aik1 = A[i*K + k+1];`
			`float aik2 = A[i*K + k+2];`
			`float aik3 = A[i*K + k+3];`
			`// float aik4 = A[i*K + k+4];`
			`// float aik5 = A[i*K + k+5];`
			`// float aik6 = A[i*K + k+6];`
			`// float aik7 = A[i*K + k+7];`
			`if(jj+block < nblock) NB = jj + block;`
			`else NB = N;`
			`for (int j = jj; j < NB; j++) {`
			`C[i * N + j] = C[iN + j] + aik B[k * N + j]`
			`+ aik1 * B[(k+1) * N + j]`
			`+ aik2 * B[(k+2) * N + j]`
			`+ aik3 * B[(k+3) * N + j];`
			`// + aik4 * B[(k+4) * N + j]`
			`// + aik5 * B[(k+5) * N + j]`
			`// + aik6 * B[(k+6) * N + j]`
			`// + aik7 * B[(k+7) * N + j];`
			`}`
			`} // i`

			`} //k`

			`} // ii`

			`} // jj`


			`} // kk`

			`#pragma omp parallel for schedule(static) private(k)`
			`for (int i = start; i < end; i++) {`
			`for(k=KU;k<K;k++){`
			`float aik = A[i*K + k];`
			`for(int j=0;j<N;j++){`
			`C[iN+j] += aik B[k*N +j];`
			`}`
			`}`
			`}`
			`} // omp`

			`}`


			`void mat_mul(float _A, float _B, float *_C, int _M, int _N, int _K, int _num_threads, int _mpi_rank, int _mpi_world_size) {`
			`A = _A, B = _B, C = _C;`
			`M = _M, N = _N, K = _K;`
			`num_threads = _num_threads, mpi_rank = _mpi_rank,`
			`mpi_world_size = _mpi_world_size;`

			`size_t bytes_mk = MKsizeof(float);`
			`size_t bytes_kn = KNsizeof(float);`
			`size_t bytes_mn = MNsizeof(float);`
			`if(mpi_rank == 0){`

			`portion = (M / (mpi_world_size) );`
			`for(int i =1; i < mpi_world_size; i++){`
			`low_bound = i * portion;`
			`if (((i + 1) == mpi_world_size) && ((M % (mpi_world_size)) != 0)) {`
			`upper_bound = M;`
			`} else {`
			`upper_bound = low_bound + portion;`
			`}`

			`MPI_Isend(&low_bound, 1, MPI_INT, i, 1, MPI_COMM_WORLD, &request);`
			`//next send the upper bound without blocking, to the intended slave`
			`MPI_Isend(&upper_bound, 1, MPI_INT, i, 2, MPI_COMM_WORLD, &request);`
			`//finally send the allocated row portion of [A] without blocking, to the intended slave`
			`MPI_Isend(&A[low_boundK], (upper_bound - low_bound) K, MPI_FLOAT, i, 3, MPI_COMM_WORLD, &request);`
			`MPI_Isend(&B[0], N * K, MPI_FLOAT, i, 4, MPI_COMM_WORLD, &request);`

			`}`
			`low_bound=0;`
			`upper_bound=portion;`
			`mat_mul_omp();`


			`for(int i = 1; i < mpi_world_size; i++){`
			`MPI_Recv(&low_bound, 1, MPI_INT, i, 4, MPI_COMM_WORLD, &status);`
			`MPI_Recv(&upper_bound, 1, MPI_INT, i, 5, MPI_COMM_WORLD, &status);`
			`MPI_Recv(&C[low_boundN], (upper_bound - low_bound) N, MPI_FLOAT, i, 6, MPI_COMM_WORLD, &status);`
			`}`

			`}`


			`else{`
			`MPI_Recv(&low_bound, 1, MPI_INT, 0, 1, MPI_COMM_WORLD, &status);`
			`//next receive upper bound from the master`
			`MPI_Recv(&upper_bound, 1, MPI_INT, 0, 2, MPI_COMM_WORLD, &status);`
			`//finally receive row portion of [A] to be processed from the master`
			`A = (float*)malloc(bytes_mk);`
			`B = (float*)malloc(bytes_kn);`
			`C = (float*)malloc(bytes_mn);`
			`MPI_Recv(&A[low_boundK], (upper_bound - low_bound) K, MPI_FLOAT, 0, 3, MPI_COMM_WORLD, &status);`
			`MPI_Recv(&B[0], N * K, MPI_FLOAT, 0, 4, MPI_COMM_WORLD, &status);`


			`mat_mul_omp();`

			`MPI_Isend(&low_bound, 1, MPI_INT, 0, 4, MPI_COMM_WORLD,&request);`
			`MPI_Isend(&upper_bound, 1, MPI_INT, 0, 5, MPI_COMM_WORLD,&request);`
			`MPI_Isend(&C[low_boundN], (upper_bound - low_bound) N, MPI_FLOAT, 0, 6, MPI_COMM_WORLD, &request);`

			`free(A);`
			`free(B);`
			`free(C);`
			`}`

			`}`