怎么区分样本是正样本还是负样本
正样本是指属于某一类别的样本,负样本是指不属于某一类别的样本。可以通过估计你所有样本特征的分布,新的样本出现时,利用分布估计该样本的出现概率,若是概率太小则认为是负样本。要想用这个方法很好的去解决问题,需要所选的特征的分布在正样本和负样本有较大差异才比较有效。
首先将这个问题分为分类问题与检测问题两个方面进行理解:
在分类问题中,这个问题相对好理解,比如人脸识别中的例子,正样本很好理解,就是人脸的图片,负样本的选取就与问题场景相关,具体而言,如果你要进行教室中学生的人脸识别,那么负样本就是教室的窗子、墙等等。
也就是说,不能是与你要研究的问题毫不相关的乱七八糟的场景,这样的负样本并没有意义。
在检测的问题中,理解着就不是那么简单了,因为检测问题需要做的事情是指出哪里有什么,也就是既要给出框,又要说明框中是什么。
在这种情况下,所具备的数据就是一些人工标注的图片,这些图片上有框,并且会给出框中的物体类别,需要运用这些数据生成训练中的正负样本数据,参考了faster以及SSD两种检测框架中对于正负样本的选取准则,理解如下:
首先,检测问题中的正负样本并非人工标注的那些框框,而是程序中(网络)生成出来的框框,也就是faster rcnn中的anchor boxes以及SSD中在不同分辨率的feature map中的默认框,这些框中的一部分被选为正样本,一部分被选为负样本,另外一部分被当作背景或者不参与运算。
不同的框架有不同的策略,大致都是根据IOU的值,选取个阈值范围进行判定,在训练的过程中还需要注意均衡正负样本之间的比例。