CUDA共享内存数组变量问题,怎么解决
1个回答
展开全部
如果只做矩阵加法没有必要用到共享内存(shared memory)来做缓存。用一位数组存储矩阵,然后直接用strided loop就行了,这样可以保证代买的scalability。提速可以依靠Kepler架构的L1 缓存来实现自动的缓存。
__global__ void MatrixAdd( // Inputs int n, // Size of the matrix float *a, float *b, // Output float *c){ for(auto i = blockIdx.x*blockDim.x+threadIdx.x; i < n; i += blockDim.x * gridDim.x) { c[i] = a[i] + b[i]; }}// 在调用这个Kerenel之前设定cudaDeviceSetCacheConfig(cudaFuncCachePreferL1);就行了,意思是主要用L1来做缓存。
__global__ void MatrixAdd( // Inputs int n, // Size of the matrix float *a, float *b, // Output float *c){ for(auto i = blockIdx.x*blockDim.x+threadIdx.x; i < n; i += blockDim.x * gridDim.x) { c[i] = a[i] + b[i]; }}// 在调用这个Kerenel之前设定cudaDeviceSetCacheConfig(cudaFuncCachePreferL1);就行了,意思是主要用L1来做缓存。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询