图像识别
图像是指物体的描述信息,数字图像是一个物体的数字表示。视觉是人类感知外部世界的最重要手段,据统计,在人类获取的信息中,视觉信息占60%,而图像正式人类获取信息的重要途径,因此,和视觉紧密相关的数字图像处理技术的项目的开发越来越受到人们的关注,逐渐形成图像识别技术。
随着数字图像处理技术的发展和实际应用的需求。许多问题不要求其输出结果是一幅完整的图像本身,而是将经过一定处理后的图像再分割和描述,提取有效的特征,进而加以判断分类,这种技术就是图像的模式识别。
图像识别技术是利用计算机视觉采集物理对象,以图像数据为基础,让机器模仿人类视觉,自动完成某些信息的处理功能,达到人类所具有的对视觉采集图像进行识别的能力,以代替人去完成图像分类及辨别的任务。对图像识别来说,面对的是二维数据信号或平面图形,除掉它们各不相同的物理内容,考虑对样品数据分类这一共性来研究的,把同一种共性者归为一类,另一种共性者归为一类。要求在最小的错误概率条件下,使识别的结果尽量与客观物体相符合,具备人所具有的对各种事物、现象进行分析、描述与判断的能力。
图像的识别属于当代计算机科学研究的重要领域,已发展成为一门独立的学科。这一学科在近几年里,发展十分迅速,应用范围相当广泛,几乎遍及各个领域,从宇航领域拓展到生物科学、信息科学、资源环境科学、天文学、物理学、工业、农业、国防、教育、艺术等各个领域与行业,在国防经济、国防建设、社会治安和社会发展等方面得到广泛应用,对整个社会都产生了深远的影响。目前, 光学字符识别(如手写数字识别、邮政编码识别、汽车牌号识别、汉字识别、条形码识别等), 以及 生物特征识别(如人脸识别、指纹识别、虹膜识别等) 已经在人类日常生活中广泛应用,对经济、军事、文化及人们的日常生活产生重大影响。
光学字符识别使用OCR读取设备和智能视觉系统软件,识别可同时被机器和肉眼读取的文本。OCR所使用的输设备入设备可以是任何一种图像采集设备,如CCD、扫描仪、数字相机等。通过使用这类采集设备,OCR系统将书写者自己写好的文字作为图像输入到计算机中,然后由计算机去识别。光学字符识别技术已经广泛应用于各种商业活动,现在又开始应用到自动化任务中。字符识别处理的信息可分为3大类:文字信息识别、数字信息识别和条形码识别。
生物特征识别就是采用某种技术和手段对人的身份进行标识,从而依据该标识对人进行身份识别,以达到监督、管理和控制目的的一种技术。用于身份识别和个人信息管理的技术和手段层出不穷,传统的个人信息鉴定方法包括个人特征。如身份证、工作者、学生证、磁卡、智能卡、口令密码等,这些分身验证方法普遍存在易丢失、易破解、易伪造、不易携带等缺点,而且在安全性和鉴定速度方面也已经不能满足人们的需求,这些技术虽然方便快捷,但其致命的缺点是安全性差、易伪造、易窃取等。近年来,计算机的广泛应用使得生物特征识别进行身份识别成为可能。
生物特征识别的方法越来越多地被应用于身份识别领域。生物特征识别技术(Biometric Identification Technology)是指人体固有的特征为判别标准,达到精确鉴定人身份的技术。这些固有特征包括人脸、虹膜、指纹、掌纹等,也被称为生物模态。这些特征除了外伤等特殊情况下一般会伴随人的一生,而不会改变或者变化很小。生物识别技术对每个个体都具有随身携带性和持久性;对不同个体具有普遍性和唯一性等优于传统身份识别的特点。基于人类生物特征的识别技术具有安全可靠、特征唯一、不易伪造、不可窃取等优点。
结合计算机技术,发展起来了众多jiy基于人类生物特征的人类身份识别技术,如人脸识别技术、指纹识别技术、虹膜识别技术。这些识别技术具有特征录入较为方便、信息丰富、使用范围广等优点。因此有着广阔的应用前景。
(1)人脸识别主要通过人脸特征进行识别,也是人们最早使用的生物特征识别技术之一,是一种比较友好、直观、更容易被人接受的识别方式。在实际应用中,人脸识别易于使用,无须使用者的主动参与,尤其适用于视屏监控等应用。但人脸识别的缺点在于稳定性较差,很容易受周围环境、饰物、年龄、表情等干扰,造成错误的识别。另外,对双胞胎、多胞胎的鉴别仍然无能为力。
(2)虹膜识别主要基于虹膜的生理结构,利用虹膜中存在的细丝、斑点、凸点、射线、皱纹和条纹等特征进行识别。据称,没有任何两个虹膜是一样的。虹膜身份认证的可靠性高,其错误接受率和错误拒绝率很低。
(3)指纹识别主要通过分析指纹的全局特征和局部特征进行识别,常用的特征如指纹中的嵴、谷、终点、分叉点和分歧点等。随着指纹识别技术的发展和指纹采集设备的价格降低,指纹识别不仅广泛应用于司法和商务活动中,也越来越多地在笔记本电脑、手机、存储器等终端设备中使用。但采集指纹时要求保持手指的洁净和光滑,污垢和疤痕都会给识别带来困难。老年人和手工劳动者的指纹由于磨损严重而不易识别。另外,在实际采集中发现,由于在犯罪记录中常使用指纹,导致很多人害怕将指纹记录在案,从心理上不愿意接收这种识别方式。
目前,无论是字符识别(如手写数字识别、邮政编码识别、汽车牌照识别、文字识别等)还是人类生物特征识别(如人脸识别、指纹识别、虹膜识别等)的项目开发技术,他们涉及数字图像处理、模式识别、人工智能、智能计算等多个学科领域。 随着高科技的发展,这些项目应用已成为衡量当代高科技水平的重要手段。
图像识别技术 是数字图像处理 和 模式识别技术 相结合的产物。数字图象处理是利用计算机或其他数字设备对图像信息进行各种加工和处理,以满足目标识别需求的基础行为。模式识别研究如何用机器来实现人对事物的学习、识别和判断能力,因而是以满足目标识别的判断行为。
为了模拟人类图像识别活动,人们提出了不同的 图像识别模型 。例如,模版匹配模型。这种模型认为,识别图像中的某个物体,必须在过去的经验中有有这个图像对对物体的记忆模式,又叫 模板 ,当前的刺激如果能与大脑中的模板相匹配,这个物体就被识别了。
图像识别的基本过程 是抽取代表未知样本模式的本质表达形式(如各种特征)和预先存储在机器中的标准模式表达形式的集合(称为字典)逐一匹配,用一定的准则进行判别,在机器存储的标准模式表达形式的集合中,找到最接近输入样本子模式的表达形式,该表达模式对应的类别就是识别结果。因此, 图像识别技术是一种从大量信息和数据出发,在已有经验和认识的基础上,利用计算机和数学推理的方法自动完成图像中物体的识别和评价的过程。
图像识别过程包括图像采集(特征分析)、图像预处理、特征提取、模式匹配4个环节。
首先,通过高清摄像机、扫描仪或其他图像采集仪器采集图像的原始信息。图像的采集过程中,由于设备的机械原因或是其他人为因素造成的图像尺寸、角度、格式、光照强度等的不同,会对以后的操作产生较大影响,所以要对采集来的原始图像进行预处理操作。图像预处理的作用可以总结为:采用某种手段将图像信息归一化,以便于后续处理工作。图像特征提取部分的作用是提取出最能表征一个物体的特征信息,并将其转变成特征向量或矩阵的形式。模式匹配是指系统用待测图像的特征与特征库中的信息进行比对,通过选择合适的分类器达到识别的目的。
图像预处理技术就是对图像进行正式处理前所做的一系列操作。因为图像在传输过程和存储过程中难免会受到某种程度的破坏和各种各样的噪声污染,导致图像丧失了本质或者偏离了人们的需求,而这就需要一系列的预处理操作来消除图像受到的影响。总的来说,图像预处理技术分为两大方面,即图像增强和图像复原技术。图像增强技术在图像预处理中占有较大的比重,是图像预处理所必需的步骤,它与图像复原技术的不同之处在于图像复原是以恢复图像原来的本质为目的的。而图像增强是以突出人们需要的特征并弱化不需要的特征为原理的。一般来说,图像增强技术有两种方法:空间域和频率域法。空间域法则主要是直接在空间域内对图像进行运算处理,分为两个方面:点运算和领域运算(局部运算)。其中,点运算包括图像灰度变换、直方图均衡化和局部统计法等几种方法;领域运算包括图像平滑和图像锐化等几个方面。频率域法则只在图像的某种变换域里对图像的变换值进行运算,如我们对图像进行傅立叶变换,然后在变换域里对图像的频谱进行某种计算,最后把计算后的图像逆变换到空间域。频率域法通常分为高、低通滤波、频率带通和带阻滤波等。图像复原技术就是利用图像的先验知识来改变一副被退化的图像的过程。图像复原技术需要我们建立图像模型,然后逆向反解这个退化过程,最后获得退化前的最优图像。
图像变换域处理是以空间频率(波数)为自变量描述图像的特征的,可以将一幅图像元值在空间上的变化分解为具有不同振幅、空间频率和相位的简振函数的线性叠加,图像中各种空间频率成分和分布称为空间频谱。这种对图像的空间频率特征进行分解、处理和分析称为空间频率域处理或波数域处理。在众多的图像变换技术中,常用的有离散余弦变换、沃什尔变换、傅立叶变换、Gabor变换和小波变换等。
(1)离散余弦变换DCT变换矩阵的基向量由于近似于托伯利兹向量,常常被认为是对语言和图像信号进行变换的最佳变换,虽然在压缩效率上略逊于具有最好压缩能力的K-L变换,但其可做到的高效处理型是K-L变换无法比拟的,并成为H.261、JPEG和MPEG等国际标准的主要环节。被广泛应用于图像编码方面。
(2)沃什尔变换是一种正交变换,能将相邻取样点的相关性消除掉,使信号能量集中在变换矩阵的左上角,其它部分出现很多零值;或在误差允许范围内,允许省略掉小值,这样可以达到数据压缩的目的。沃什尔变换在图像传输、雷达、通信和生物医学等领域曾得到广泛应用。
(3)傅立叶变换是一种常用的正交变换,其最主要的数学理论基础就是傅立叶级数,由著名数学家Fourier在1822年提出,其主要思想是将周期函数展开成正弦级数。傅立叶变换的提出奠定了图像的理论基础,其通过在时空域和频率域来回切换图像,对图像的信息特征进行提取和分析,简化了计算工作量,被喻为描述图像信息的第二种语言,广泛应用于图像变换、图像编码与压缩、图像分割和图像重建中。
(4)Gabor变换属于加窗傅立叶变换,是短时Fourier变换中当窗函数取为高斯函数时的一种特殊情况。由于傅立叶变换存在一定的局限性,所以Gabor1946年提出了加窗傅立叶变换。加窗傅立叶变换方法的一个典型就是低通滤波器。Gabor 函数可以在频域不同尺度和不同方向上提取相关特征。
(5)小波变换受到傅立叶变换的启发,Morlet于1984年提出了小波分析的概念。1986年著名数学家Meyer和Mallat合作构建了图像小波函数的统一方法——多尺度分析。目前在图像去噪应用方面,小波变换理论取得非常好的效果。
频率域去噪主要是由于有的图像在空间域处理的效果并不理想,因此想到转换到频率域进行处理,即用一组正交的函数系去逼近要处理的目标函数,从而进一步得到相应级数的系数。频率域处理主要用于与图像空间频率有关的处理中,如图像恢复、图像重建、辐射变换、边缘增强、图像平滑、噪声压制、频谱分析和纹理分析等处理和分析中。
特征提取计算机所视觉和图像处理中的一个概念,它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续曲线或者连续的区域。
(1)特征选择
原始数量的特征很大,或者说原始样本处于一个高维空间中,从一组特征挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程就叫做特征选择。也就是说,将对类别可分离性无贡献或者贡献不大的特征简单地忽略掉。特征选择是图像识别中的一个关键问题。
(2)特征变换
通过映射或变换的方法可以将高维空间中的特征描述用低维空间的特征来描述,这个过程就叫做特征变换。通过特征变换获得的特征是原始特征集的某种组合,新的特征中包含了原有全体特征的信息。主成份分析法是最常用的特征变换方法。
特征的选择与提取是非常重要的,特征选择是模式识别中的一个关键问题。由于在很多实际问题中常常不容易找到那些最重要的特征,或受条件限制不能对它们进行测量,这就使特征选择与提取的任务复杂化而成为构造模式识别系统中最困难的任务之一。这个问题已经越来越受到人们的重视。特征选择与提取的基本任务是如何从许多特征中找出那些最有效的特征。解决特征选择与特征提取问题,最核心的内容就是如何对现有特征进行评估,以及如何通过现有特征产生更好的特征。
常见的图像特征提取与描述方法如颜色特征、纹理特征和几何形状特征提取与描述方法。
根据有无标准样本,模式识别可分为监督学习和非监督学习。模式识别分类或描述通常是基于已经得到分类或描述的模式集合而进行的,人们称这个模式集合为训练集,由此产生的学习策略称为监督学习。学习也可以是非监督学习,在此意义下产生的系统不需要提供模式类的先验知识,而是基于模式的统计规律或模式的相似性学习判断模式的类别。
(1)数据采集
数据采集是指利用各种传感器把被研究对象的各种信息转换为计算机可以接收的数值或符号(串)集合。习惯上称这种数值或符号(串)所组成的空间为模式空间。这一步的关键是传感器的选取。
一般获取的数据类型如下。
(2)预处理
为了从这些数字或符号(串)中抽取出对识别有效的信息,必须进行预处理,目的是为了消除输入数据或信息中的噪声,排除不相干的信号,只留下与被研究对象的性质和采用的识别方法密切相关的特征(如表征物体的形状、周长、面积等)。举例来说,在啊进行指纹识别时,指纹扫描设备每次输出的指纹图像会随着图像的对比度、亮度或背景等的不同而不同,有时可能还会产生变形,而人们感兴趣的仅仅是图像中的指纹线、指纹分叉点和端点等,而不需要指纹的其他部分和背景。因此,需要采用合理的滤波算法,如基于块方图的方向滤波和二值滤波等,过滤掉指纹图像中这些不必要的部分。
(3)特征提取
对原始数据进行交换,从许多特征中寻找出最有效的特征,得到最能反应分类本质的特征,将维数较高的测量空间(原始数据组成的空间)转变为维数较低的特征空间(分类识别赖以进行的空间),以降低后续处理过程的难度。人类很容易获取的特征,对于机器来说就很难获取了,这就是模式识别中的特征选择与提取的问题。特征选择与提取是模式识别的一个关键问题。一般情况下,候选特征种类越多,得到的结果应该越好。但是,由此可能会引发维数灾害,即特征维数过高,计算机难以求解。如何确定合适的特征空间是设计模式识别系统一个十分重要的问题。对特征空间进行优化有两种基本方法。一是特征选择,如果所选用的特征空间能使同类物体分布具有紧致性,为分类器设计成功提供良好的基础;反之,如果不同类别的样品在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性;另一种是特征的组合优化,通过一种映射变换改造原特征空间,构造一个新的精简的特征空间。
(4)分类决策
基于模式特征空间,就可以进行模式识别的最后一部分:分类决策。该阶段最后输出的可能是对象所属的类型,也可能是模型数椐库中与对象最相似的模式编号。己知若干个样品的类别及特征,例如,手写阿拉伯数字的判别是具有10类的分类问题,机器首先要知道每个手写数字的形状特征,对同一个数字,不同的人有不同的写法,甚至同一个人对同一个数字也行多种写法,就必须让机器知道它属于哪一类。因此,对分类问题需要建立样品库。根椐这些样品库建立判别分类函数,这—过程是由机器来实现的,称为学习过程。然后对一个未知的新对象分析它的特征,决定它属于哪一类,这是一种监督分类的方法。
具体步骤是建立特征空间中的训练集,已知训练集里每个点的所属类别,从这些条件出发,寻求某种判别函数或判别准则,设计判决函数模型,然后根据训练集中的样品确定模型中的参数,便可将这模型用于判别,利用判别函数或判别准则去判别每个未知类别的点应该属于哪一个类。在模式识别学科中,.一般把这个过程称为训练与学习的过程。
分类的规则是依据训练样品提供信息确定的。分类器设计在训练过程中完成,利用一批训练样品,包括各种类别的样品,由这些样品大致勾画出各类事物在特征空间分布的规律性,为确定使用什么样的数学公式及这些公式中的参数提供了信息。一般来说,决定使用什么类型的分类函数是人决定的。分类器参数的选择或者在学习过程中得到的结果取决于设计者选择什么样的准则函数。不同准则函数的最优解对应不同的学习结果,得到性能不同的分类器。数学式子中的参数则往往通过学习来确定,在学习过程中,如果发现当前采用的分类函数会造成分类错误,那么利用错误提供应如何纠正的信息,就可以使分类函数朝正确的方向前进,这就形成了一种迭代的过程。如果分类函数及其参数使出错的情况越来越少,就可以说是逐渐收敛,学习过程就收到了效果,设计也就可以结束。
针对不问的应用目的,模式识别系统4部分的内容有很大的差异,特别楚在数据预处理和分类决策这两部分。为了提高识别结果的可靠性,往往需要加入知识库(规则)以对可能产生的错误进行修正,或通过引入限制条件大大缩小待识别模式在模型库中的搜索空间,以减少匹配计算量。