chundoong-lab-ta/SamsungDS22/submissions/HW4/kaye.jeong/mat_mul.cpp

#include "mat_mul.h"

#include <cstdio>
#include <cstdlib>
#include <mpi.h>
#include <omp.h>
#include "util.h"

#define min(a, b) (((a) < (b)) ? (a) : (b))
#define MASTER 0
#define FORM_MASTER 1
#define FORM_WORKER 2


static float *A, *B, *C;
static int M, N, K;
static int num_threads;
static int mpi_rank, mpi_world_size;
static int rows[4]={0,};
static int offset[4]={0,};

#define SLICEM 32
#define SLICEK 16
#define SLICEN 2048

static void mat_mul_omp() {
  // TODO: parallelize & optimize matrix multiplication
  // Use num_threads per node

// #pragma omp parallel for
//   for (int i = 0; i < rows; ++i) {
//     for (int j = 0; j < N; ++j) {
//       for (int k = 0; k < K; ++k) {
//         C[i * N + j] += A[i * K + k] * B[k * N + j];
//       }
//     }
//   }

// #pragma omp parallel num_threads(num_threads)
// #pragma omp parallel for
//   for (int i = 0; i < rows; ++i) {
//     for (int k = 0; k < K; ++k) {
//       float arr = A[i*K+k];
//       for (int j = 0; j < N; j+=1) {
//         C[i * N + j] += arr * B[k * N + j];
//       }
//     }
//   }
  int start=0;
  int ed=rows[mpi_rank];

  #pragma omp parallel for num_threads(num_threads) schedule(dynamic)
    for(int i2=start;i2<ed;i2+=SLICEM) {
      for(int k2=0;k2<K;k2+=SLICEK) {
        for(int j2=0;j2<N;j2+=SLICEN) {
          int edk=k2+SLICEK<K?(k2+SLICEK):K;
          int edm=i2+SLICEM<M?(i2+SLICEM):M;
          int edn=j2+SLICEN<N?(j2+SLICEN):N;
          for(int i=i2;i<edm;++i) {
            for(int k=k2;k<edk;++k) {
              for(int j=j2;j<edn;++j) {
                C[i*N+j]+=A[i*K+k]*B[k*N+j];
              }
            }
          }
        }
      }
    }
  }
  // omp_set_num_threads(num_threads);
  // #pragma omp parallel 
  // {
  // int pid = omp_get_thread_num();
  // //printf("Parallel section: Hello world from thread %d\n",pid);

  // int slice = M / num_threads;
  // int start = pid * slice;
  // int end = pid == num_threads - 1 ? M : (pid + 1) * slice;
  // //int unroll = 8;
  // float Aik;
  // int bs = 45;

  // for (int kk = 0; kk < K; kk += bs) {
  //   //for (int jj = 0; jj < N; jj += bs) {
  //     for (int i = start; i < end; ++i) {
  //       for (int k = kk; k < min(kk + bs, K); ++k) {
  //         Aik = A[i * K + k];
  //         int j=0;

  //         for(; j < N; ++j) {
  //           C[i * N + j] += Aik * B[k * N + j];
  //         }
  //       }
  //     }
  //   }
  // }


void mat_mul(float *_A, float *_B, float *_C, int _M, int _N, int _K,
             int _num_threads, int _mpi_rank, int _mpi_world_size) {
  A = _A, B = _B, C = _C;
  M = _M, N = _N, K = _K;
  num_threads = _num_threads, mpi_rank = _mpi_rank,
  mpi_world_size = _mpi_world_size;


  // TODO: parallelize & optimize matrix multiplication on multi-node
  // You must allocate & initialize A, B, C for non-root processes
  //int numworkers = mpi_world_size -1;
  //int averow, extra;
  MPI_Status status;
  MPI_Request request;
  // FIXME: for now, only root process runs the matrix multiplication.
  // if (mpi_rank == 0)
  //   mat_mul_omp();
  int nrows = M / mpi_world_size;
  //averow = M/numworkers;
  //extra = M%numworkers;
  //offset = 0;
   
   for(int i=0;i<mpi_world_size;i++) {
     rows[i]=(i==mpi_world_size-1)?(M-(nrows *(mpi_world_size-1))):nrows;
   }
   for(int i=0;i<mpi_world_size-1;i++) {
     offset[i+1]=offset[i]+rows[i];
   }
   if(mpi_rank != 0) {
     M=rows[mpi_rank];
     alloc_mat(&A, rows[mpi_rank], K);
     alloc_mat(&B, K, N);
     alloc_mat(&C, rows[mpi_rank], N);     
   }
   MPI_Bcast(B,K*N,MPI_FLOAT,0,MPI_COMM_WORLD);
   if(mpi_rank == 0) {
     for(int i=1;i<mpi_world_size;i++)
       MPI_Isend(&A[offset[i]*K],rows[i]*K,MPI_FLOAT,i,0,MPI_COMM_WORLD,&request);
   } else {
       MPI_Recv(A,rows[mpi_rank]*K,MPI_FLOAT,0,0,MPI_COMM_WORLD,&status);
   }
   mat_mul_omp();
   if(mpi_rank != 0) {
       MPI_Isend(C,rows[mpi_rank]*N,MPI_FLOAT,0,0,MPI_COMM_WORLD,&request);
   } else {
     for(int i=1;i<mpi_world_size;i++)
       MPI_Recv(&C[offset[i]*N],rows[i]*N,MPI_FLOAT,i,0,MPI_COMM_WORLD,&status);
   }


}

  //  }     
  //  )
  //  {
  //    /* code */
  //  }
   
  //   printf("/////////////////numworkers %d\n",numworkers);
  //   printf("/////////////////averow %d\n",averow);
  //   printf("/////////////////extra %d\n",extra);

  // if(mpi_rank == 0)
  // {
  //   int row_size = M / mpi_world_size;
  //   int st,ed;
  //   for (int node=1; node < mpi_world_size; node++) {
  //     st = offset = node * row_size;
  //     ed = node == mpi_world_size -1 ? M : (node+1)*row_size;
  //     rows = ed - st;
	// 	MPI_Isend(&offset, 1, MPI_INT, node, FORM_MASTER, MPI_COMM_WORLD, &request);
	// 	MPI_Isend(&rows, 1, MPI_INT, node, FORM_MASTER, MPI_COMM_WORLD,&request);
	// 	MPI_Isend(&A[offset*K], rows*K, MPI_FLOAT, node, FORM_MASTER, MPI_COMM_WORLD,&request);
	// 	MPI_Isend(B, N*K, MPI_FLOAT, node, FORM_MASTER, MPI_COMM_WORLD,&request);

  //   }
  //   rows = row_size;
  //   mat_mul_omp();
  //   for (int node=1; node < mpi_world_size; node++) {
	// 	MPI_Recv(&offset, 1, MPI_INT, node, FORM_WORKER, MPI_COMM_WORLD, &status);
	// 	MPI_Recv(&rows, 1, MPI_INT, node, FORM_WORKER, MPI_COMM_WORLD, &status);
	// 	MPI_Recv(&C[offset*N], rows*N, MPI_FLOAT, node, FORM_WORKER, MPI_COMM_WORLD, &status);

  //   }
  // } else {
  //   alloc_mat(&A, M, K);
  //   alloc_mat(&B, M, N);
  //   alloc_mat(&C, M, N);
  //   zero_mat(C,M,N);

	// 	MPI_Recv(&offset, 1, MPI_INT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);
	// 	MPI_Recv(&rows, 1, MPI_INT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);
	// 	MPI_Recv(&A, rows*K, MPI_FLOAT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);
	// 	MPI_Recv(B, N*K, MPI_FLOAT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);
    
  //   mat_mul_omp();
	//   MPI_Isend(&offset, 1, MPI_INT, MASTER, FORM_WORKER, MPI_COMM_WORLD,&request);
  //   MPI_Isend(&rows, 1, MPI_INT, MASTER, FORM_WORKER, MPI_COMM_WORLD,&request);
  //   MPI_Isend(&C, rows*N, MPI_FLOAT, MASTER, FORM_WORKER, MPI_COMM_WORLD,&request);
 
  // }

//     for (dest=1; dest<=numworkers; dest++)
// 	  {
// 		rows = (dest <= extra) ? averow+1 : averow;
// 		// MPI_Send(&offset, 1, MPI_INT, dest, mtype, MPI_COMM_WORLD);
// 		// MPI_Send(&rows, 1, MPI_INT, dest, mtype, MPI_COMM_WORLD);
// 		// MPI_Send(&A[offset], rows*N, MPI_FLOAT, dest, mtype, MPI_COMM_WORLD);
// 		// MPI_Send(B, N*K, MPI_FLOAT, dest, mtype, MPI_COMM_WORLD);
// 		offset = offset + rows;
//     printf(" \n");
//     printf("///////////////// mpi_rank Number %d\n",mpi_rank);
//     printf("///////////////// Master numworkers %d\n",numworkers);
//     printf("///////////////// Master dest %d\n",dest);
//     printf("///////////////// Master send offset %d\n",offset);
//     printf("///////////////// Master send rows %d\n",rows);
//     printf("///////////////// Master send rows*N %d\n",rows*N);
//     printf("///////////////// Master send N*K %d\n",N*K);
//     printf("///////////////// ------------------------------\n");
// 	 }

//   mat_mul_omp();
// 	mtype = FORM_WORKER;
// 	for(i=1; i<=numworkers; i++)
// 	{
// 		source = i;
// 		// MPI_Recv(&offset, 1, MPI_INT, source, mtype, MPI_COMM_WORLD, &status);
// 		// MPI_Recv(&rows, 1, MPI_INT, source, mtype, MPI_COMM_WORLD, &status);
// 		// MPI_Recv(&C[offset], rows*N, MPI_FLOAT, source, mtype, MPI_COMM_WORLD, &status);
//     printf("///////////////// mpi_rank Number %d\n",mpi_rank);
//     printf("///////////////// Master source  %d\n",source);
//     printf("///////////////// Master Recv offset %d\n",offset);
//     printf("///////////////// Master Recv rows %d\n",rows);
//     printf("///////////////// Master Recv C rows*N %d\n",rows*N);
//     printf("///////////////// ------------------------------\n");
// 	}
// }
//   // if (mpi_rank > MASTER)
//   // {
// 	//   mtype = FORM_MASTER;
// 	// 	// MPI_Recv(&offset, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD, &status);
// 	// 	// MPI_Recv(&rows, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD, &status);
// 	// 	// MPI_Recv(&A, rows*N, MPI_DOUBLE, MASTER, mtype, MPI_COMM_WORLD, &status);
// 	// 	// MPI_Recv(B, N*K, MPI_DOUBLE, MASTER, mtype, MPI_COMM_WORLD, &status);
//   //   printf("///////////////// mpi_rank Number %d\n",mpi_rank);
//   //   printf("///////////////// Worker Recv offset %d\n",offset);
//   //   printf("///////////////// Worker Recv rows %d\n",rows);
//   //   printf("///////////////// Worker Recv A rows*N %d\n",rows*N);
//   //   printf("///////////////// Worker Recv B N*K %d\n",N*K);
//   //   printf("///////////////// ------------------------------\n");

// 	//     mat_mul_omp();

// 	//   mtype = FORM_WORKER;
// 	//   // MPI_Send(&offset, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD);
//   //   // MPI_Send(&rows, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD);
//   //   // MPI_Send(&C, N, MPI_DOUBLE, MASTER, mtype, MPI_COMM_WORLD);
//   //   printf("///////////////// mpi_rank Number %d\n",mpi_rank);
//   //   printf("///////////////// Worker Send offset %d\n",offset);
//   //   printf("///////////////// Worker Send rows %d\n",rows);
//   //   printf("///////////////// Worker Send C N  %d\n",N);
//   //   printf("///////////////// ------------------------------\n");


//   // }
. 2022-09-29 18:01:45 +09:00			`#include "mat_mul.h"`

			`#include <cstdio>`
			`#include <cstdlib>`
			`#include <mpi.h>`
			`#include <omp.h>`
			`#include "util.h"`

			`#define min(a, b) (((a) < (b)) ? (a) : (b))`
			`#define MASTER 0`
			`#define FORM_MASTER 1`
			`#define FORM_WORKER 2`


			`static float A, B, *C;`
			`static int M, N, K;`
			`static int num_threads;`
			`static int mpi_rank, mpi_world_size;`
			`static int rows[4]={0,};`
			`static int offset[4]={0,};`

			`#define SLICEM 32`
			`#define SLICEK 16`
			`#define SLICEN 2048`

			`static void mat_mul_omp() {`
			`// TODO: parallelize & optimize matrix multiplication`
			`// Use num_threads per node`

			`// #pragma omp parallel for`
			`// for (int i = 0; i < rows; ++i) {`
			`// for (int j = 0; j < N; ++j) {`
			`// for (int k = 0; k < K; ++k) {`
			`// C[i * N + j] += A[i * K + k] * B[k * N + j];`
			`// }`
			`// }`
			`// }`

			`// #pragma omp parallel num_threads(num_threads)`
			`// #pragma omp parallel for`
			`// for (int i = 0; i < rows; ++i) {`
			`// for (int k = 0; k < K; ++k) {`
			`// float arr = A[i*K+k];`
			`// for (int j = 0; j < N; j+=1) {`
			`// C[i * N + j] += arr * B[k * N + j];`
			`// }`
			`// }`
			`// }`
			`int start=0;`
			`int ed=rows[mpi_rank];`

			`#pragma omp parallel for num_threads(num_threads) schedule(dynamic)`
			`for(int i2=start;i2<ed;i2+=SLICEM) {`
			`for(int k2=0;k2<K;k2+=SLICEK) {`
			`for(int j2=0;j2<N;j2+=SLICEN) {`
			`int edk=k2+SLICEK<K?(k2+SLICEK):K;`
			`int edm=i2+SLICEM<M?(i2+SLICEM):M;`
			`int edn=j2+SLICEN<N?(j2+SLICEN):N;`
			`for(int i=i2;i<edm;++i) {`
			`for(int k=k2;k<edk;++k) {`
			`for(int j=j2;j<edn;++j) {`
			`C[iN+j]+=A[iK+k]B[kN+j];`
			`}`
			`}`
			`}`
			`}`
			`}`
			`}`
			`}`
			`// omp_set_num_threads(num_threads);`
			`// #pragma omp parallel`
			`// {`
			`// int pid = omp_get_thread_num();`
			`// //printf("Parallel section: Hello world from thread %d\n",pid);`

			`// int slice = M / num_threads;`
			`// int start = pid * slice;`
			`// int end = pid == num_threads - 1 ? M : (pid + 1) * slice;`
			`// //int unroll = 8;`
			`// float Aik;`
			`// int bs = 45;`

			`// for (int kk = 0; kk < K; kk += bs) {`
			`// //for (int jj = 0; jj < N; jj += bs) {`
			`// for (int i = start; i < end; ++i) {`
			`// for (int k = kk; k < min(kk + bs, K); ++k) {`
			`// Aik = A[i * K + k];`
			`// int j=0;`

			`// for(; j < N; ++j) {`
			`// C[i * N + j] += Aik * B[k * N + j];`
			`// }`
			`// }`
			`// }`
			`// }`
			`// }`


			`void mat_mul(float _A, float _B, float *_C, int _M, int _N, int _K,`
			`int _num_threads, int _mpi_rank, int _mpi_world_size) {`
			`A = _A, B = _B, C = _C;`
			`M = _M, N = _N, K = _K;`
			`num_threads = _num_threads, mpi_rank = _mpi_rank,`
			`mpi_world_size = _mpi_world_size;`


			`// TODO: parallelize & optimize matrix multiplication on multi-node`
			`// You must allocate & initialize A, B, C for non-root processes`
			`//int numworkers = mpi_world_size -1;`
			`//int averow, extra;`
			`MPI_Status status;`
			`MPI_Request request;`
			`// FIXME: for now, only root process runs the matrix multiplication.`
			`// if (mpi_rank == 0)`
			`// mat_mul_omp();`
			`int nrows = M / mpi_world_size;`
			`//averow = M/numworkers;`
			`//extra = M%numworkers;`
			`//offset = 0;`

			`for(int i=0;i<mpi_world_size;i++) {`
			`rows[i]=(i==mpi_world_size-1)?(M-(nrows *(mpi_world_size-1))):nrows;`
			`}`
			`for(int i=0;i<mpi_world_size-1;i++) {`
			`offset[i+1]=offset[i]+rows[i];`
			`}`
			`if(mpi_rank != 0) {`
			`M=rows[mpi_rank];`
			`alloc_mat(&A, rows[mpi_rank], K);`
			`alloc_mat(&B, K, N);`
			`alloc_mat(&C, rows[mpi_rank], N);`
			`}`
			`MPI_Bcast(B,K*N,MPI_FLOAT,0,MPI_COMM_WORLD);`
			`if(mpi_rank == 0) {`
			`for(int i=1;i<mpi_world_size;i++)`
			`MPI_Isend(&A[offset[i]K],rows[i]K,MPI_FLOAT,i,0,MPI_COMM_WORLD,&request);`
			`} else {`
			`MPI_Recv(A,rows[mpi_rank]*K,MPI_FLOAT,0,0,MPI_COMM_WORLD,&status);`
			`}`
			`mat_mul_omp();`
			`if(mpi_rank != 0) {`
			`MPI_Isend(C,rows[mpi_rank]*N,MPI_FLOAT,0,0,MPI_COMM_WORLD,&request);`
			`} else {`
			`for(int i=1;i<mpi_world_size;i++)`
			`MPI_Recv(&C[offset[i]N],rows[i]N,MPI_FLOAT,i,0,MPI_COMM_WORLD,&status);`
			`}`


			`}`

			`// }`
			`// )`
			`// {`
			`// /* code */`
			`// }`

			`// printf("/////////////////numworkers %d\n",numworkers);`
			`// printf("/////////////////averow %d\n",averow);`
			`// printf("/////////////////extra %d\n",extra);`

			`// if(mpi_rank == 0)`
			`// {`
			`// int row_size = M / mpi_world_size;`
			`// int st,ed;`
			`// for (int node=1; node < mpi_world_size; node++) {`
			`// st = offset = node * row_size;`
			`// ed = node == mpi_world_size -1 ? M : (node+1)*row_size;`
			`// rows = ed - st;`
			`// MPI_Isend(&offset, 1, MPI_INT, node, FORM_MASTER, MPI_COMM_WORLD, &request);`
			`// MPI_Isend(&rows, 1, MPI_INT, node, FORM_MASTER, MPI_COMM_WORLD,&request);`
			`// MPI_Isend(&A[offsetK], rowsK, MPI_FLOAT, node, FORM_MASTER, MPI_COMM_WORLD,&request);`
			`// MPI_Isend(B, N*K, MPI_FLOAT, node, FORM_MASTER, MPI_COMM_WORLD,&request);`

			`// }`
			`// rows = row_size;`
			`// mat_mul_omp();`
			`// for (int node=1; node < mpi_world_size; node++) {`
			`// MPI_Recv(&offset, 1, MPI_INT, node, FORM_WORKER, MPI_COMM_WORLD, &status);`
			`// MPI_Recv(&rows, 1, MPI_INT, node, FORM_WORKER, MPI_COMM_WORLD, &status);`
			`// MPI_Recv(&C[offsetN], rowsN, MPI_FLOAT, node, FORM_WORKER, MPI_COMM_WORLD, &status);`

			`// }`
			`// } else {`
			`// alloc_mat(&A, M, K);`
			`// alloc_mat(&B, M, N);`
			`// alloc_mat(&C, M, N);`
			`// zero_mat(C,M,N);`

			`// MPI_Recv(&offset, 1, MPI_INT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);`
			`// MPI_Recv(&rows, 1, MPI_INT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);`
			`// MPI_Recv(&A, rows*K, MPI_FLOAT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);`
			`// MPI_Recv(B, N*K, MPI_FLOAT, MASTER, FORM_MASTER, MPI_COMM_WORLD, &status);`

			`// mat_mul_omp();`
			`// MPI_Isend(&offset, 1, MPI_INT, MASTER, FORM_WORKER, MPI_COMM_WORLD,&request);`
			`// MPI_Isend(&rows, 1, MPI_INT, MASTER, FORM_WORKER, MPI_COMM_WORLD,&request);`
			`// MPI_Isend(&C, rows*N, MPI_FLOAT, MASTER, FORM_WORKER, MPI_COMM_WORLD,&request);`

			`// }`

			`// for (dest=1; dest<=numworkers; dest++)`
			`// {`
			`// rows = (dest <= extra) ? averow+1 : averow;`
			`// // MPI_Send(&offset, 1, MPI_INT, dest, mtype, MPI_COMM_WORLD);`
			`// // MPI_Send(&rows, 1, MPI_INT, dest, mtype, MPI_COMM_WORLD);`
			`// // MPI_Send(&A[offset], rows*N, MPI_FLOAT, dest, mtype, MPI_COMM_WORLD);`
			`// // MPI_Send(B, N*K, MPI_FLOAT, dest, mtype, MPI_COMM_WORLD);`
			`// offset = offset + rows;`
			`// printf(" \n");`
			`// printf("///////////////// mpi_rank Number %d\n",mpi_rank);`
			`// printf("///////////////// Master numworkers %d\n",numworkers);`
			`// printf("///////////////// Master dest %d\n",dest);`
			`// printf("///////////////// Master send offset %d\n",offset);`
			`// printf("///////////////// Master send rows %d\n",rows);`
			`// printf("///////////////// Master send rowsN %d\n",rowsN);`
			`// printf("///////////////// Master send NK %d\n",NK);`
			`// printf("///////////////// ------------------------------\n");`
			`// }`

			`// mat_mul_omp();`
			`// mtype = FORM_WORKER;`
			`// for(i=1; i<=numworkers; i++)`
			`// {`
			`// source = i;`
			`// // MPI_Recv(&offset, 1, MPI_INT, source, mtype, MPI_COMM_WORLD, &status);`
			`// // MPI_Recv(&rows, 1, MPI_INT, source, mtype, MPI_COMM_WORLD, &status);`
			`// // MPI_Recv(&C[offset], rows*N, MPI_FLOAT, source, mtype, MPI_COMM_WORLD, &status);`
			`// printf("///////////////// mpi_rank Number %d\n",mpi_rank);`
			`// printf("///////////////// Master source %d\n",source);`
			`// printf("///////////////// Master Recv offset %d\n",offset);`
			`// printf("///////////////// Master Recv rows %d\n",rows);`
			`// printf("///////////////// Master Recv C rowsN %d\n",rowsN);`
			`// printf("///////////////// ------------------------------\n");`
			`// }`
			`// }`
			`// // if (mpi_rank > MASTER)`
			`// // {`
			`// // mtype = FORM_MASTER;`
			`// // // MPI_Recv(&offset, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD, &status);`
			`// // // MPI_Recv(&rows, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD, &status);`
			`// // // MPI_Recv(&A, rows*N, MPI_DOUBLE, MASTER, mtype, MPI_COMM_WORLD, &status);`
			`// // // MPI_Recv(B, N*K, MPI_DOUBLE, MASTER, mtype, MPI_COMM_WORLD, &status);`
			`// // printf("///////////////// mpi_rank Number %d\n",mpi_rank);`
			`// // printf("///////////////// Worker Recv offset %d\n",offset);`
			`// // printf("///////////////// Worker Recv rows %d\n",rows);`
			`// // printf("///////////////// Worker Recv A rowsN %d\n",rowsN);`
			`// // printf("///////////////// Worker Recv B NK %d\n",NK);`
			`// // printf("///////////////// ------------------------------\n");`

			`// // mat_mul_omp();`

			`// // mtype = FORM_WORKER;`
			`// // // MPI_Send(&offset, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD);`
			`// // // MPI_Send(&rows, 1, MPI_INT, MASTER, mtype, MPI_COMM_WORLD);`
			`// // // MPI_Send(&C, N, MPI_DOUBLE, MASTER, mtype, MPI_COMM_WORLD);`
			`// // printf("///////////////// mpi_rank Number %d\n",mpi_rank);`
			`// // printf("///////////////// Worker Send offset %d\n",offset);`
			`// // printf("///////////////// Worker Send rows %d\n",rows);`
			`// // printf("///////////////// Worker Send C N %d\n",N);`
			`// // printf("///////////////// ------------------------------\n");`


			`// // }`