我所了解的图像分割

 我来答
舒适还明净的海鸥i
2022-07-21 · TA获得超过1.7万个赞
知道小有建树答主
回答量:380
采纳率:0%
帮助的人:69.3万
展开全部
图像分割是我大二2019年做的东西,这篇文章用来总结。

分语义【像素级别图像】,实例【分割物体有进一步分类】。

基于图像的灰度特征来计算一个或多个灰度阈值,并将图像中每个像素的灰度值与阈值作比较,最后将像素根据比较结果分到合适的类别中。

确定某个准则函数来求解最佳灰度阈值。【阈值法特别适用于目标和背景占据不同灰度级范围的图。】

值得一提的是:特征点检测也有此方法

直接寻找区域。有两种基本形式:一种是区域生长,从单个像素出发,逐步合并以形成所需要的分割区域;另一种是从全局出发,逐步切割至所需的分割区域。

基于边缘检测的图像分割算法试图通过检测包含不同区域的边缘来解决分割问题。它可以说是人们最先想到也是研究最多的方法之一。通常不同区域的边界上像素的灰度值变化比较剧烈,如果将图片从空间域通过傅里叶变换到频率域,边缘就对应着高频部分,这是一种非常简单的边缘检测算法。

常规卷积

常规卷积+残差【解决梯度消失,网络变深】

Efficient Neural Network(ENet)

ResNet-38

full-resolution residual network(FRRN)

AdapNey

由目标检测发展而来(R-CNN、Fast R-CNN)

在Faster R-CNN的结构基础上加上了Mask预测分支,并且改良了ROI Pooling,提出了ROI Align。

评价函数只对目标检测的候选框进行打分,而不是分割模板

(1)ReSeg模型【FCN改进】

FCN的不足:没有考虑到局部或者全局的上下文依赖关系,而在语义分割中这种依赖关系是非常有用的。所以在ReSeg中作者使用RNN去检索上下文信息,以此作为分割的一部分依据。

卷积神经网络在进行采样的时候会丢失部分细节信息,这样的目的是得到更具特征的价值。但是这个过程是不可逆的,有的时候会导致后面进行操作的时候图像的 分辨率太低 ,出现 细节丢失 等问题。因此我们通过上采样在一定程度上可以不全一些丢失的信息,从而得到更加准确的分割边界。

卷积后进行一次上采样,得到segment map。

优点:

FCN对图像进行了像素级的分类,从而解决了 语义级别 的图像分割问题;

FCN可以 接受任意尺寸的输入图像 ,可以保留下原始输入图像中的空间信息;

缺点:

得到的结果由于上采样的原因比较模糊和平滑,对图像中的 细节不敏感 ;

对各个像素分别进行分类,没有充分考虑 像素与像素的关系,缺乏空间一致性。

恢复在深度卷积神经网络中下降的分辨率,从而获取更多的上下文信息。

DeepLab是结合了深度卷积神经网络和概率图模型的方法,应用在语义分割的任务上,目的是做逐像素分类,其先进性体现在DenseCRFs(概率图模型)和DCNN的结合。是将每个像素视为CRF节点,利用远程依赖关系并使用CRF推理直接优化DCNN的损失函数。

在图像分割领域,FCN的一个众所周知的操作就是平滑以后再填充,就是先进行卷积再进行pooling,这样在降低图像尺寸的同时增大感受野,但是在先减小图片尺寸(卷积)再增大尺寸(上采样)的过程中一定有一些信息损失掉了,所以这里就有可以提高的空间。

DeepLab提出空洞卷积解决这一问题

(1)常规图像分割

交叉熵Loss

Focal Loss【解决难易样本不均衡】

(2)医疗影像分割

Dice Loss(该损失函数的提出有一个背景,直接优化性能度量,涉及到我的另一个课题非凸优化)

IOU(常做为评价指标)

基于以上几个基本的Loss还有各种各样的改进

因为相邻临的像素对应感受野内的图像信息太过相似了,如果临近的像素都属于所需分割区域的内部,那么这种‘相似’是有利的,但是如果相邻 像素刚好处在所需分割区域的边界上,那么这种相似就是有害的了。

上下文特征是很常见的,其实上下文大概去理解就是图像中的每一个像素点不可能是孤立的,一个像素一定和周围像素是有一定的关系的,大量像素的互相联系才产生了图像中的各种物体,所以上下文特征就指像素以及周边像素的某种联系。

1、对网络输出的分割的边界增加额外的损失,或者让网络对边界的特征和区域内部的特征分开建模学习。其本质上的思想还是让网络同时做两个任务:分割和边缘检测。另外,提高输入图像的输入分辨率和中间层特征图的分辨率同样也是简单有效的。

2、利用loss动态加权或者在图像二维空间上采样来解决同一张图像中不同语义的像素个数不均衡以及学习的难易程度不同的问题。

3、利用半监督或者弱监督学习的方法减少标注昂贵的问题。利用多个标签有噪声的样本或其特征构建虚拟的标签干净的虚拟样本或特征来减少标签的噪声。

4、利用合理的上下文的建模机制,帮助网络猜测遮挡部分的语义信息。

5、在网络中构建不同图像之间损失或者特征交互模块。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
苏州千视通视觉科技股份有限公司_
2024-11-04 广告
千视通是国内第一梯队推出多模态AI大模型网关和边缘大模型一体机产品方案的领先AI企业。 拥有行业领先的多模态视觉语言大模型技术,践行“Make high-quality AI quickly”理念,平台基于多模态预训练,支持用户自定义算法可... 点击进入详情页
本回答由苏州千视通视觉科技股份有限公司_提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式