三维图像像素在CUDA里怎么分配线程复杂度比较低

 我来答
棉花糖QQonedcae4
2016-12-29 · 知道合伙人互联网行家
棉花糖QQonedcae4
知道合伙人互联网行家
采纳数:20232 获赞数:39192
山东师范大学计算机科学与技术专业,本科学士学位,培训过软件开发,及法律。

向TA提问 私信TA
展开全部
并行度是很复杂、很难估计的,它和很多因素有关,不能单从SP的数量来判断。一个SM最多有48个SP可以同时运行,它们执行同样的指令或者休眠,但是并不是说它们每一个负责一个block或者thread的运算。实际上,threads是按warp为单位执行的,一个warp有32个threads。一个SM可以最多有48个warp是active的,但是由于一个GPU时钟时间内可以执行的指令非常有限,所以这些warp不是全部并行执行的,而是随着GPU时钟来回切换执行,这个机制很复杂,是由GPU自己来部署的。所以,比较这种并行度是很难的,一般不这样比也不这样去考虑并行运算。
如果是单一的GPU优化问题,那就是比程序的吞吐量(throughput)和GPU最大吞吐量之间 (peak throughput)的差值,看一下优化的程度是不是好,越靠近最大吞吐量的优化就越好。如果只是做了一个加速的可能性,那么就比较加速比就可以了。
在实际编程中,你其实只需要考虑CUDA编程指南上面提到的那些优化方法就行了,比如增大occupancy,instruction level parallelism(指令级并行)等等就足够了。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
东莞大凡
2024-08-07 广告
OpenCV标定板是东莞市大凡光学科技有限公司在相机标定中常用的工具。它通常由黑白格点按一定规则排列在平面上组成,如棋盘格或圆形格等。在相机标定时,将标定板置于不同位置和姿态下拍摄图像,利用OpenCV库中的函数检测标定板上的角点或圆心,进... 点击进入详情页
本回答由东莞大凡提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式