常用的主流数据统计分析方法:2.判别分析
a. 目的 :识别一个个体所属类别
b. 适用 :被解释对象是非度量变量(nonmetric),解释变量是度量变量;分组类型2组以上,每组样品>1。
c. 应用 :归类、预测
d. 判别分析与聚类分析 :
i. 聚类分析前,我们并不知道应该分几类,分类工作;
ii. 判别分析时,样品的分类已事先确定,需要利用训练样 本建立判别准则,对新样品所属类别进行判定,归类工作。
a. 假设1:每一个判别变量(解释变量)不能是其他判别变量的线性组合。避免多重共线性问题。
b. 假设2:如果采用线性判别函数,还要求各组变量协方差矩阵相等----线性判别函数使用起来最方便、在实际 中使用最广。
c. 假设3:各判别变量遵从多元正态分布,可精确的计算 显著性检验值和归属概率,不然计算概率不准。
协方差相等/协方差不等
协方差相等/协方差不等
优点 :
i. 距离判别只要求知道总体的特征量(即参数)---均值和协差阵,不涉及总体的分布类型.
ii. 当参数未知时,就用样本均值和 样本协差阵来估计.
iii. 距离判别方法简单,结论明确,是很实用的方法.
ii. 缺点
i. 该判别法与各总体出现的机会大小(先验概率)完全无关
ii. 判别方法没有考虑错判造成的损失,这是不合理的.
v. 贝叶斯判别 的基本思想
i. 假定对研究对象已经有了一定的认识,这种认识可以用 先验概率 来描述,当取得样本后,就可以利用 样本来修正 已有的 先验概率分布,得到 后验概率 分布,再通过后验概率分布进 行各种统计推断。
ii. 贝叶斯判别属于 概率判别法。
iii. 判别准则:
i. 个体归属某类的概率(后验概率)最大
ii. 错判总平均损失最小为标准。
vi. 贝叶斯判别的后验概率最大
i. 贝叶斯(Bayes)判别要变量服从 正态分布 类型。
ii. 、贝叶斯(Bayes)判别的判别准则是以个体归属某类的概率最大或 错判总平均损失 最小为标准。弥补了 距离判别和费歇(Fisher)判别的缺点。
5.1费歇(Fisher)判别核心思想 :
i. 通过多维数据投影到一维度直线上,将k组m维数据投影到 某一个方向,使得投影后组与组之间尽可能地分开。而衡量组 与组之间是否分开的方法借助于一元方差分析的思想
ii. 费歇(Fisher)判别是一种确定性判别。
5.2费歇(Fisher)判别小结 :
i. 费歇(Fisher)判别对判别变量的分布类型并无要求, 而贝叶斯(Bayes)判别要变量服从正态分布类型。因此, Fisher类判别较Bayes类判别简单一些。
ii. 当两个总体时,若它们的协方差矩阵相同,则距离判 别和Fisher判别等价。 当变量服从正态分布时,它们还 和Bayes判别等价。
iii. 与距离判别一样,费歇判别与各总体出现的机会大小 (先验概率)完全无关;也没有考虑错判造成的损失。
如何从m个变量中挑选出对区分k个总体有显 著判别能力的变量,来建立判别函数,用以判别归类。
1.忽略主要的指标;
凡是具有筛选变量能力的判别方法统称为逐步判别法。
i. 保留判别能力显著的变量
ii. 剔除判别能力不显著的变量
i. 逐步筛选变量
i. 根据各变量对区分k个总体的判别能力的大小,利用向 前选入、向后剔除或逐步筛选的方法来选择区分k个总体的 最佳变量子集。
ii. 判别归类
i. 对已选出变量子集,使用三大判别方法(距离判别、 Bayes判别、Fisher判别)对样品进行判别归类。
2024-11-30 广告