ETM<sup>+</sup>(TM)蚀变遥感异常提取方法研究与应用——异常主分量的信息量计算和直方图正态性检验
2020-01-19 · 技术研发知识服务融合发展。
张玉君
(中国国土资源航空物探遥感中心,北京)
摘要:本文用概率论的中心极限定理理解许多遥感数据近似服从正态分布的现象;用标准离差 σ作为异常主分量门限化的尺度;采用直方图的香农熵评价异常主分量的信息量;并采用偏度和峰度联合检验法对直方图做正态性检验。通过信息量计算和正态性检验评价了三种异常主分量的直方图。
关键词:中心极限定理;信息熵(香农熵,或平均信息量);标准正态分布;偏度;峰度。
引言
遥感信息的处理是以概率论、数理统计和多元统计分析为数学理论基础的,概率论的中心极限定理有助于理解遥感数据的许多现象[1]。我们在文[2]中提出了去干扰异常主分量门限化技术流程,异常强度等级是以异常主分量标准离差σ为尺度的,于是便思考以下问题:它与标准正态分布是否接近?当改进主分量分析时所得异常主分量的信息量增加多少?为此采用直方图的香农熵评价异常主分量的信息量,并采用偏度和峰度联合检验法对其直方图做正态性检验。通过信息量计算和正态性检验评价了三种异常主分量及其直方图。
1 中心极限定理
在图像处理中经常使用概率密度分布曲线(简称直方图),于是便产牛两个问题:
(1)如何理解TM数据直方图在许多情况下接近正态分布?
(2)是否可以使用标准离差σ作为遥感异常切割的尺度?
在自然现象(以及社会现象)中,大量随机变量都服从或近似服从正态分布。作为极其重要自然现象的地质遥感学,其许多问题也都遵循正态分布规律。例如,某一地区某种地质体或地物各波段反射波谱、其两波段的比值、乃至整景ETM经主分量分析提取的异常主分量等,都近似地服从正态分布。因此概率论和数理统计中与正态随机变量相关的理论和概念在遥感蚀变信息提取中起着特别重要的作用。
首先应理解的是概率论的中心极限定理。该定理的直观解释为:若一个随机变量是由大量相互独立的随机因素的影响所造成,而每一个别因素在总影响中所起的作用都不很大,则这种随机变量通常都服从或近似服从正态分布。该定理还证明了,这些相互独立的随机因素可以是服从同一分布(即有相同的数学期望和方差),也可以是不服从同一分布(即有不同的数学期望和方差)。
中心极限定理可以帮助理解遥感数据的许多现象。例如,东天山尾亚杂岩体的形成取决于许多因素:入侵岩浆的成分、温度、压力、酸碱度、空间分布、后期剥蚀的物理化学条件等等,这些因素的变化是相互独立而随机的,每一因素的变化都起了一定但又不很大的作用,造成当今尾亚杂岩体的面貌;当然ETM所测到的尾亚杂岩体波谱特性还受卫星观测系统灵敏度、稳定性、温度、压力等诸多因素的影响,这些因素的变化也是相互独立而随机的。图1所示为尾亚杂岩体ETM各波段直方图,各波段直方图均近似服从正态分布,此图是用中心极限定理理解遥感现象的很好实例。在遥感蚀变信息提取方法研究中,经常涉及多元统计分析,而多元统计分析的主要理论都是建立在多元正态分布总体基础上的,所以在这一研究中对正态分布的理解具有特殊重要的意义。
图1 东天山尾亚杂岩体ETM各波段直方图
2 正态分布和σ的借用
2.1 正态分布
早在1795年德国数学家高斯就推导出偶然误差或然率曲线的函数表达式即高斯分布定律或正态分布[3],中心极限定理是数位数学家(Liapunov,Levy-Lindeberg,De Moivre-Laplace等)的进一步发展,为了简单明了现仅列出高斯分布:连续型随机变量X的概率密度为
张玉君地质勘查新方法研究论文集
式中σ称为标准误差。如果取k倍的标准误差,那么任一观测值的误差介于±κσ之间的或然率P为:
表1 或然率与误差的关系
图2 或然率p与k的关系图
结合我们的具体情况,如前所述,通过主分量分析(PCA)提取的羟基和铁染蚀变异常(OHA、FCA)主分量,往往具有正态分布的特点:
(1)只有一个中心,即众值;
(2)小偏离比大偏离出现的几会多;
(3)大小相等、符号相反的正负偏离的儿率接近,直方图近似对称于y轴;
(4)极大的正偏离和极小的负偏离的机率都很小,直方图向两端迅速衰减。
故而产生借用σ作为异常主分量门限化的尺度。
表2 切割水平
2.2 σ的借用
TM数据处理以多元分析为基础,多元分析中对应于误差理论中称之为标准误差的σ,是标准离差(或标准偏差),其定义为:
张玉君地质勘查新方法研究论文集
既然TM数据及其线性处理结果一般均有近似正态分布的直方图(如图3所示,为13739景羟基主分量直方图),那么我们在做异常切割或数据切割时便可借用σ这个表征正态分布曲线的尺度。例如,主分量分析结果可以把均值(X)理解为代表区域背景,利用(X+kσ)确定异常下限和划分异常强度等级[4]。异常总面积可用(1-P)/2近似计算,其大小因景号而异。
图3 13739ms直方图对比
切割异常时有了这一尺度可以减少主观任意性,并使操作较为规范化,为此做切割水平表(表2),此表是按下式计算的:
L=127.5+kσ*SF;或 L=127.5+kx127.5/4 H=L+1
式中 H、L分别为切割高、低门限值;k为倍数;σ为标准离差;SK为比例因子;σ和SK由主分量分析报告给出。
3 香农(Shannon)信息量的应用
信息需要定量描述,信息含量的多少,称为信息量。1948年美国工程师C.H.Shannon给出了信息量的数学公式[1]。对于信息源的整体信息量,Shannon定义为各信息符号信息量的平均信息量(或称信息熵),用S(X)表示:
张玉君地质勘查新方法研究论文集
式中X为随机变量,它取有限个值X={x1,x2,…xn),其值称为信息符号,信息符号xi出现的概率为Pi,i=1,2,…,n。且Pi≥0,
现利用信息量公式来定量评价我们对于异常主分量直方图的改善。取13739景ETM+数据的子集13739ms(1620,5145,1200,820),括弧中前两个数为起始列行数,后两个数为子图13739ms的大小。对此子图像分别做了三种羟基异常主分量:①仅做大气径辐射校正及去干扰;②做大气径辐射校正及去干扰,又做了无损失拉伸;③做大气径辐射校正及去干扰,并限定异常主分量的输出动态范围为±4σ。此三种直方图示于图3中。从此图可以直观明显地看出,直方图的改善对于异常切割十分有利。首先将三种主分量分析的主要参数对比于下表(表3):
表3 三种主分量分析的主要参数对比
将三种异常主分量的概率统计密度图(直方图)的数值输出于表4,然后计算其各自的香农信息量。子图13739ms的总像素数为1200×820=984000;干扰窗像素总数为131551;去干扰后参与主分量分析的像素数为852449。因为异常主分量直方图是以128为“0”点,左半边实为负异常值。由于我们仅对正异常感兴趣,故只计算直方图右半边(灰阶从128至255)的信息量。将(3)式写成可利用EL-5100C计算器进行循环计算的形式:
f(Ki,C)=Ki÷852449×ln(852449÷Ki)+C CTO C(4)
式中 Ki为具有灰阶i的像素数;Ki÷852449=Pi。
表4 13739ms三种羟基异常直方图数据(表中每一列的右侧数为灰阶值;左侧为像元数)
续表
续表
除了香农信息熵还计算了相对信息量
表5 三种异常主分量概率统计密度图信息量计算
由表5可见三种主分量分析所获异常主分量中正值的平均信息量(信息熵)和相对信息量依次增加,而信息剩余度依次递减。这说明第三种异常主分量所含信息量最大,最有利于异常门限化。
3 直方图的正态性检验
如前所述,及在[4]中我们曾写过,结合我们的具体情况,部分或整景ETM通过主分量分析(PCA)提取的羟基和铁染蚀变异常(OHA、FCA)主分量,往往具有正态分布的特点。
现试用偏度和峰度联合检验法[5],对13739ms子集的羟基异常主分量概率统计密度图(直方图)做正态性检验。
该方法的主要理论依据是正态分布密度曲线是对称的、且陡缓适中。因此,被检验的数据若来自正态总体,则其经验分布密度(直方图)就不能偏斜太多,也不能陡缓过分。为此数理统计提出两个数字特征,一个是描述分布密度曲线的偏度γ1;另一个是描述分布密度曲线的陡缓程度的峰度γ2。由概率论[6、7]得知,偏度γ1与峰度γ2可表示为:
张玉君地质勘查新方法研究论文集
式中 Eξ为随机变量ξ的数学期望(均值);E(ξ-Eξ)2为ξ的方差,记为Dξ,称
根据矩估计法,可得样本偏度和峰度的下述表达式:
张玉君地质勘查新方法研究论文集
对于正态分布N(μ,σ2),γ1=0,γ2=3,因此,当原假设或零假设(根据实际问题要求所提出的一个关于随机变量的一种论断,称为统计假设)H0为真时,对于用样本值(x1,x2……,xn)算出的观测值bs与bK应该分别接近0与3。
分别对13739ms子集的前述三种羟基异常主分量概率密度分布经PCI统计出它们的标准差S相应为:2.2205;3.8412;31.2434。利用EL-5100C计算器按下述循环式计算出μ3和μ4:
右半边 f(AB)=(A-128)3×B÷852449 STO C,C+D STO D,C×(A-128)+E STO E(9)
左半边 f(AB)=(128-A)3×B÷852449 STO C,C+D STO D,C×(128-A)+E STO E(10)
式中 A为羟基异常主分景的灰阶值;B为具有该灰阶的像元数;最终的C为μ3;最终的E为μ4。
于是求出三种羟基异常主分量概率密度分布的偏度bs与峰度bk,列入表6中:
表6三种羟基异常主分量概率密度分布的偏度bs与峰度bk计算结果
从表6可以看出,用偏度和峰度联合检验法对13739ms子集的三种羟基异常主分量直方图所做正态性检验效果,以第三种(做大气径辐射校正及去干扰,并限定异常主分量的输出动态范围为±4σ)处理所获羟基异常主分量直方图最接近正态分布,其偏度bs为0.03,峰度bk为4.08。
5 结论
以甲马——驱龙火山-沉积盆地铜多金属矿田为例(13739ms),展示了平均信息量(信息熵)计算结果及用偏度和峰度联合检验法对13739ms子集的三种羟基异常主分量直方图所做正态性检验效果。以第三种(做大气径辐射校正及去干扰,并限定异常主分量的输出动态范围为±4σ)处理所获羟基异常主分量所含信息量最大,且其直方图最接近正态分布,其偏度bs为0.03,峰度bk为4.08。此研究的主要意义在于,改进了用于找矿信息提取的主要方法——主分量分析的效果,并提供利用σ作为异常分层尺度的依据。
参考文献
[1]袁志发,周静芋.多元统计分析.科学出版社,2003
[2]张玉君,杨建民,陈薇.ETM+(TM)蚀变遥感异常提取方法研究与应用——地质依据和波谱前提[J].国土资源遥感,2002,(4):30~36
[3]冯师颜.误差理论与实验数据处理,1964
[4]张玉君,曾朝铭,陈薇.ETM.(TM)蚀变遥感异常提取方法研究与应用—方法选择和技术流程[J].国土资源遥感,2003,(2):44~49
[5]庄楚强,吴亚森.应用数理统计基础.华南理工大学出版社,2002
[6]周概容.概率论与数理统计,1984.
[7]盛驺,谢式千,潘承毅.概率论与数理统计,1995.
Study on the Methodology for the Abstraction of The Alteration Anomalies from the ETM+(TM)Data and Its Application—The Calculation of Information Content&Examination of The Normality for The Anomalous Principal Component Histograms
Zhang Yu jun
(China Aero-Geophysical Survey and Remote Sensing Center for Land and Resources,Beijing 100083,China)
Abstract: The central limiting theory of the probability helps understanding of the near standard distribution of the remote sensing data in many cases.The standard deviation σ was used for threshoding of the anomalous principal component.Using Shannon entropy evaluated the information content of the anomalous principal component.The distribution normality of the anomalous principal component histogram was examined by calculation of the deviation degree and the peak degree.Three different anomalous principal componenthistograms were compared too by these calculations.
Key words: Central limiting theory;Standard normal distribution;Information entropy(Mean information content);Degree of deviation;Degree of peak;Quantitative measure of anomaly slicing;Thresholding.