CUDA共享内存数组变量问题,怎么解决

 我来答
折柳成萌
高粉答主

2018-05-21 · 繁杂信息太多,你要学会辨别
知道顶级答主
回答量:4.4万
采纳率:96%
帮助的人:6205万
展开全部
如果只做矩阵加法没有必要用到共享内存(shared memory)来做缓存。用一位数组存储矩阵,然后直接用strided loop就行了,这样可以保证代买的scalability。提速可以依靠Kepler架构的L1 缓存来实现自动的缓存。

__global__ void MatrixAdd( // Inputs int n, // Size of the matrix float *a, float *b, // Output float *c){ for(auto i = blockIdx.x*blockDim.x+threadIdx.x; i < n; i += blockDim.x * gridDim.x) { c[i] = a[i] + b[i]; }}// 在调用这个Kerenel之前设定cudaDeviceSetCacheConfig(cudaFuncCachePreferL1);就行了,意思是主要用L1来做缓存。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式