UoB-HPC
diff --git a/‎src/StreamModels.h
+1-1 b/‎src/StreamModels.h
+1-1
diff --git a/‎src/acc/ACCStream.cpp
+24-18 b/‎src/acc/ACCStream.cpp
+24-18
diff --git a/‎src/acc/ACCStream.h
+7-11 b/‎src/acc/ACCStream.h
+7-11
diff --git a/‎src/cuda/CUDAStream.cu
+17-17 b/‎src/cuda/CUDAStream.cu
+17-17
diff --git a/‎src/cuda/CUDAStream.h
+3-3 b/‎src/cuda/CUDAStream.h
+3-3
@@ -36,7 +36,7 @@
 #endif
 
 template <typename T>
-std::unique_ptr<Stream<T>> make_stream(int array_size, int deviceIndex) {
+std::unique_ptr<Stream<T>> make_stream(intptr_t array_size, int deviceIndex) {
 #if defined(CUDA)
   // Use the CUDA implementation
   return std::make_unique<CUDAStream<T>>(array_size, deviceIndex);
 
@@ -8,13 +8,12 @@
 #include "ACCStream.h"
 
 template <class T>
-ACCStream<T>::ACCStream(const int ARRAY_SIZE, int device)
+ACCStream<T>::ACCStream(const intptr_t ARRAY_SIZE, int device)
+  : array_size{ARRAY_SIZE}
 {
   acc_device_t device_type = acc_get_device_type();
   acc_set_device_num(device, device_type);
 
-  array_size = ARRAY_SIZE;
-
   // Set up data region on device
   this->a = new T[array_size];
   this->b = new T[array_size];
@@ -32,7 +31,7 @@ template <class T>
 ACCStream<T>::~ACCStream()
 {
   // End data region on device
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
 
   T * restrict a = this->a;
   T * restrict b = this->b;
@@ -49,12 +48,12 @@ ACCStream<T>::~ACCStream()
 template <class T>
 void ACCStream<T>::init_arrays(T initA, T initB, T initC)
 {
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
   T * restrict a = this->a;
   T * restrict b = this->b;
   T * restrict c = this->c;
   #pragma acc parallel loop present(a[0:array_size], b[0:array_size], c[0:array_size]) wait
-  for (int i = 0; i < array_size; i++)
+  for (intptr_t i = 0; i < array_size; i++)
   {
     a[i] = initA;
     b[i] = initB;
@@ -70,16 +69,23 @@ void ACCStream<T>::read_arrays(std::vector<T>& h_a, std::vector<T>& h_b, std::ve
   T *c = this->c;
   #pragma acc update host(a[0:array_size], b[0:array_size], c[0:array_size])
   {}
+
+  for (intptr_t i = 0; i < array_size; i++)
+  {
+    h_a[i] = a[i];
+    h_b[i] = b[i];
+    h_c[i] = c[i];
+  }
 }
 
 template <class T>
 void ACCStream<T>::copy()
 {
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
   T * restrict a = this->a;
   T * restrict c = this->c;
   #pragma acc parallel loop present(a[0:array_size], c[0:array_size]) wait
-  for (int i = 0; i < array_size; i++)
+  for (intptr_t i = 0; i < array_size; i++)
   {
     c[i] = a[i];
   }
@@ -90,11 +96,11 @@ void ACCStream<T>::mul()
 {
   const T scalar = startScalar;
 
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
   T * restrict b = this->b;
   T * restrict c = this->c;
   #pragma acc parallel loop present(b[0:array_size], c[0:array_size]) wait
-  for (int i = 0; i < array_size; i++)
+  for (intptr_t i = 0; i < array_size; i++)
   {
     b[i] = scalar * c[i];
   }
@@ -103,12 +109,12 @@ void ACCStream<T>::mul()
 template <class T>
 void ACCStream<T>::add()
 {
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
   T * restrict a = this->a;
   T * restrict b = this->b;
   T * restrict c = this->c;
   #pragma acc parallel loop present(a[0:array_size], b[0:array_size], c[0:array_size]) wait
-  for (int i = 0; i < array_size; i++)
+  for (intptr_t i = 0; i < array_size; i++)
   {
     c[i] = a[i] + b[i];
   }
@@ -119,12 +125,12 @@ void ACCStream<T>::triad()
 {
   const T scalar = startScalar;
 
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
   T * restrict a = this->a;
   T * restrict b = this->b;
   T * restrict c = this->c;
   #pragma acc parallel loop present(a[0:array_size], b[0:array_size], c[0:array_size]) wait
-  for (int i = 0; i < array_size; i++)
+  for (intptr_t i = 0; i < array_size; i++)
   {
     a[i] = b[i] + scalar * c[i];
   }
@@ -135,12 +141,12 @@ void ACCStream<T>::nstream()
 {
   const T scalar = startScalar;
 
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
   T * restrict a = this->a;
   T * restrict b = this->b;
   T * restrict c = this->c;
   #pragma acc parallel loop present(a[0:array_size],  b[0:array_size], c[0:array_size]) wait
-  for (int i = 0; i < array_size; i++)
+  for (intptr_t i = 0; i < array_size; i++)
   {
     a[i] += b[i] + scalar * c[i];
   }
@@ -151,11 +157,11 @@ T ACCStream<T>::dot()
 {
   T sum{};
 
-  int array_size = this->array_size;
+  intptr_t array_size = this->array_size;
   T * restrict a = this->a;
   T * restrict b = this->b;
   #pragma acc parallel loop reduction(+:sum) present(a[0:array_size], b[0:array_size]) wait
-  for (int i = 0; i < array_size; i++)
+  for (intptr_t i = 0; i < array_size; i++)
   {
     sum += a[i] * b[i];
   }
 
@@ -19,24 +19,23 @@
 template <class T>
 class ACCStream : public Stream<T>
 {
-
-	struct A{
-		T *a;
-		T *b;
-		T *c;
-	};
+  struct A{
+    T *a;
+    T *b;
+    T *c;
+  };
 
   protected:
     // Size of arrays
-    int array_size;
+    intptr_t array_size;
     A aa;
     // Device side pointers
     T *a;
     T *b;
     T *c;
 
   public:
-    ACCStream(const int, int);
+    ACCStream(const intptr_t, int);
     ~ACCStream();
 
     virtual void copy() override;
@@ -48,7 +47,4 @@ class ACCStream : public Stream<T>
 
     virtual void init_arrays(T initA, T initB, T initC) override;
     virtual void read_arrays(std::vector<T>& a, std::vector<T>& b, std::vector<T>& c) override;
-
-
-
 };
@@ -20,7 +20,7 @@ __host__ __device__ constexpr size_t ceil_div(size_t a, size_t b) { return (a +
 cudaStream_t stream;
 
 template <class T>
-CUDAStream<T>::CUDAStream(const int array_size, const int device_index)
+CUDAStream<T>::CUDAStream(const intptr_t array_size, const int device_index)
   : array_size(array_size)
 {
   // Set device
@@ -96,9 +96,9 @@ CUDAStream<T>::~CUDAStream()
 }
 
 template <typename T>
-__global__ void init_kernel(T * a, T * b, T * c, T initA, T initB, T initC, int array_size)
+__global__ void init_kernel(T * a, T * b, T * c, T initA, T initB, T initC, size_t array_size)
 {  
-  for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {
+  for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {
     a[i] = initA;
     b[i] = initB;
     c[i] = initC;
@@ -120,7 +120,7 @@ void CUDAStream<T>::read_arrays(std::vector<T>& a, std::vector<T>& b, std::vecto
   // Copy device memory to host
 #if defined(PAGEFAULT) || defined(MANAGED)
   CU(cudaStreamSynchronize(stream));
-  for (int i = 0; i < array_size; ++i)
+  for (intptr_t i = 0; i < array_size; ++i)
   {
     a[i] = d_a[i];
     b[i] = d_b[i];
@@ -134,9 +134,9 @@ void CUDAStream<T>::read_arrays(std::vector<T>& a, std::vector<T>& b, std::vecto
 }
 
 template <typename T>
-__global__ void copy_kernel(const T * a, T * c, int array_size)
+__global__ void copy_kernel(const T * a, T * c, size_t array_size)
 {
-  for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {
+  for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {
     c[i] = a[i];
   }
 }
@@ -151,10 +151,10 @@ void CUDAStream<T>::copy()
 }
 
 template <typename T>
-__global__ void mul_kernel(T * b, const T * c, int array_size)
+__global__ void mul_kernel(T * b, const T * c, size_t array_size)
 {
   const T scalar = startScalar;
-  for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {
+  for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {
     b[i] = scalar * c[i];
   }
 }
@@ -169,9 +169,9 @@ void CUDAStream<T>::mul()
 }
 
 template <typename T>
-__global__ void add_kernel(const T * a, const T * b, T * c, int array_size)
+__global__ void add_kernel(const T * a, const T * b, T * c, size_t array_size)
 {
-  for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {
+  for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {
     c[i] = a[i] + b[i];
   }
 }
@@ -186,10 +186,10 @@ void CUDAStream<T>::add()
 }
 
 template <typename T>
-__global__ void triad_kernel(T * a, const T * b, const T * c, int array_size)
+__global__ void triad_kernel(T * a, const T * b, const T * c, size_t array_size)
 {
   const T scalar = startScalar;
-  for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {
+  for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {
     a[i] = b[i] + scalar * c[i];
   }
 }
@@ -204,10 +204,10 @@ void CUDAStream<T>::triad()
 }
 
 template <typename T>
-__global__ void nstream_kernel(T * a, const T * b, const T * c, int array_size)
+__global__ void nstream_kernel(T * a, const T * b, const T * c, size_t array_size)
 {
   const T scalar = startScalar;
-  for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {
+  for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {
     a[i] += b[i] + scalar * c[i];
   }
 }
@@ -222,12 +222,12 @@ void CUDAStream<T>::nstream()
 }
 
 template <class T>
-__global__ void dot_kernel(const T * a, const T * b, T* sums, int array_size)
+__global__ void dot_kernel(const T * a, const T * b, T* sums, size_t array_size)
 {
   __shared__ T smem[TBSIZE];
   T tmp = T(0.);
   const size_t tidx = threadIdx.x;
-  for (int i = tidx + (size_t)blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {
+  for (size_t i = tidx + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {
     tmp += a[i] * b[i];
   }
   smem[tidx] = tmp;
@@ -249,7 +249,7 @@ T CUDAStream<T>::dot()
   CU(cudaStreamSynchronize(stream));
 
   T sum = 0.0;
-  for (int i = 0; i < dot_num_blocks; ++i) sum += sums[i];
+  for (intptr_t i = 0; i < dot_num_blocks; ++i) sum += sums[i];
 
   return sum;
 }
 
@@ -22,7 +22,7 @@ class CUDAStream : public Stream<T>
 {
   protected:
     // Size of arrays
-    int array_size;
+    intptr_t array_size;
 
     // Host array for partial sums for dot kernel
     T *sums;
@@ -33,10 +33,10 @@ class CUDAStream : public Stream<T>
     T *d_c;
 
     // Number of blocks for dot kernel
-    int dot_num_blocks;
+    intptr_t dot_num_blocks;
 
   public:
-    CUDAStream(const int, const int);
+    CUDAStream(const intptr_t, const int);
     ~CUDAStream();
 
     virtual void copy() override;
Original file line number	Diff line number	Diff line change
`@@ -20,7 +20,7 @@ __host__ __device__ constexpr size_t ceil_div(size_t a, size_t b) { return (a +`
`20`	`20`	`cudaStream_t stream;`
`21`	`21`
`22`	`22`	`template <class T>`
`23`		`-CUDAStream<T>::CUDAStream(const int array_size, const int device_index)`
	`23`	`+CUDAStream<T>::CUDAStream(const intptr_t array_size, const int device_index)`
`24`	`24`	`: array_size(array_size)`
`25`	`25`	`{`
`26`	`26`	`// Set device`
`@@ -96,9 +96,9 @@ CUDAStream<T>::~CUDAStream()`
`96`	`96`	`}`
`97`	`97`
`98`	`98`	`template <typename T>`
`99`		`-__global__ void init_kernel(T * a, T * b, T * c, T initA, T initB, T initC, int array_size)`
	`99`	`+__global__ void init_kernel(T * a, T * b, T * c, T initA, T initB, T initC, size_t array_size)`
`100`	`100`	`{`
`101`		`- for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {`
	`101`	`+ for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {`
`102`	`102`	`a[i] = initA;`
`103`	`103`	`b[i] = initB;`
`104`	`104`	`c[i] = initC;`
`@@ -120,7 +120,7 @@ void CUDAStream<T>::read_arrays(std::vector<T>& a, std::vector<T>& b, std::vecto`
`120`	`120`	`// Copy device memory to host`
`121`	`121`	`#if defined(PAGEFAULT) \|\| defined(MANAGED)`
`122`	`122`	`CU(cudaStreamSynchronize(stream));`
`123`		`- for (int i = 0; i < array_size; ++i)`
	`123`	`+ for (intptr_t i = 0; i < array_size; ++i)`
`124`	`124`	`{`
`125`	`125`	`a[i] = d_a[i];`
`126`	`126`	`b[i] = d_b[i];`
`@@ -134,9 +134,9 @@ void CUDAStream<T>::read_arrays(std::vector<T>& a, std::vector<T>& b, std::vecto`
`134`	`134`	`}`
`135`	`135`
`136`	`136`	`template <typename T>`
`137`		`-__global__ void copy_kernel(const T * a, T * c, int array_size)`
	`137`	`+__global__ void copy_kernel(const T * a, T * c, size_t array_size)`
`138`	`138`	`{`
`139`		`- for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {`
	`139`	`+ for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {`
`140`	`140`	`c[i] = a[i];`
`141`	`141`	`}`
`142`	`142`	`}`
`@@ -151,10 +151,10 @@ void CUDAStream<T>::copy()`
`151`	`151`	`}`
`152`	`152`
`153`	`153`	`template <typename T>`
`154`		`-__global__ void mul_kernel(T * b, const T * c, int array_size)`
	`154`	`+__global__ void mul_kernel(T * b, const T * c, size_t array_size)`
`155`	`155`	`{`
`156`	`156`	`const T scalar = startScalar;`
`157`		`- for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {`
	`157`	`+ for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {`
`158`	`158`	`b[i] = scalar * c[i];`
`159`	`159`	`}`
`160`	`160`	`}`
`@@ -169,9 +169,9 @@ void CUDAStream<T>::mul()`
`169`	`169`	`}`
`170`	`170`
`171`	`171`	`template <typename T>`
`172`		`-__global__ void add_kernel(const T * a, const T * b, T * c, int array_size)`
	`172`	`+__global__ void add_kernel(const T * a, const T * b, T * c, size_t array_size)`
`173`	`173`	`{`
`174`		`- for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {`
	`174`	`+ for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {`
`175`	`175`	`c[i] = a[i] + b[i];`
`176`	`176`	`}`
`177`	`177`	`}`
`@@ -186,10 +186,10 @@ void CUDAStream<T>::add()`
`186`	`186`	`}`
`187`	`187`
`188`	`188`	`template <typename T>`
`189`		`-__global__ void triad_kernel(T * a, const T * b, const T * c, int array_size)`
	`189`	`+__global__ void triad_kernel(T * a, const T * b, const T * c, size_t array_size)`
`190`	`190`	`{`
`191`	`191`	`const T scalar = startScalar;`
`192`		`- for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {`
	`192`	`+ for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {`
`193`	`193`	`a[i] = b[i] + scalar * c[i];`
`194`	`194`	`}`
`195`	`195`	`}`
`@@ -204,10 +204,10 @@ void CUDAStream<T>::triad()`
`204`	`204`	`}`
`205`	`205`
`206`	`206`	`template <typename T>`
`207`		`-__global__ void nstream_kernel(T * a, const T * b, const T * c, int array_size)`
	`207`	`+__global__ void nstream_kernel(T * a, const T * b, const T * c, size_t array_size)`
`208`	`208`	`{`
`209`	`209`	`const T scalar = startScalar;`
`210`		`- for (int i = threadIdx.x + blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {`
	`210`	`+ for (size_t i = (size_t)threadIdx.x + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {`
`211`	`211`	`a[i] += b[i] + scalar * c[i];`
`212`	`212`	`}`
`213`	`213`	`}`
`@@ -222,12 +222,12 @@ void CUDAStream<T>::nstream()`
`222`	`222`	`}`
`223`	`223`
`224`	`224`	`template <class T>`
`225`		`-__global__ void dot_kernel(const T * a, const T * b, T* sums, int array_size)`
	`225`	`+__global__ void dot_kernel(const T * a, const T * b, T* sums, size_t array_size)`
`226`	`226`	`{`
`227`	`227`	`__shared__ T smem[TBSIZE];`
`228`	`228`	`T tmp = T(0.);`
`229`	`229`	`const size_t tidx = threadIdx.x;`
`230`		`- for (int i = tidx + (size_t)blockDim.x * blockIdx.x; i < array_size; i += gridDim.x * blockDim.x) {`
	`230`	`+ for (size_t i = tidx + (size_t)blockDim.x * blockIdx.x; i < array_size; i += (size_t)gridDim.x * blockDim.x) {`
`231`	`231`	`tmp += a[i] * b[i];`
`232`	`232`	`}`
`233`	`233`	`smem[tidx] = tmp;`
`@@ -249,7 +249,7 @@ T CUDAStream<T>::dot()`
`249`	`249`	`CU(cudaStreamSynchronize(stream));`
`250`	`250`
`251`	`251`	`T sum = 0.0;`
`252`		`- for (int i = 0; i < dot_num_blocks; ++i) sum += sums[i];`
	`252`	`+ for (intptr_t i = 0; i < dot_num_blocks; ++i) sum += sums[i];`
`253`	`253`
`254`	`254`	`return sum;`
`255`	`255`	`}`