聚类和分类的区别
2023-11-13 · 百度认证:SPSSAU官方账号,优质教育领域创作者
分类是已知类别。
聚类是未知类别。
典型的聚类分析一般包括三个阶段,特征选择、特征提取和数据对象见相似度的计算,可以对样品进行聚类也可以对变量进行聚类。具体划分如下:
K-means聚类
K-means聚类流程如下:
Step1:选择聚类个数k
Step2:生成k个聚类中心点
Step3:计算所有样本点到中心点的距离,根据距离进行聚类
Step4:进行迭代
Step5:重复迭代,达到收敛要求
K-means聚类算法效果分析一般可以看SSE指标、轮廓系数法、CH系数,需要分析人员在分析前进行多次对比从而达到模型更优的目的。
算法效果一般可以参考,SSE指标、轮廓系数、CH系数等等。
SSE指标(误差平方和):
误差平方和是指真实值和预测值的差,比如:
在聚类分析中的SSE计算如下:
从图片上来看SSE(左图)>SSE(右图),同时也可以看出左侧更稀疏右侧更密集,SSE想要达到最优解,还需要初始聚类中心的选择,否则只能达到一个局部最优解,初始聚类中心的选择可以参考“肘部法”,一般认为“拐点”即下降率突然变缓慢时,认为此点为最佳k值。比如:
轮廓系数(SC系数):
轮廓系数适用于实际类别信息未知的情况,结合凝聚度和分散度,计算如下:
CH系数:
利用协方差进行判断,类别内的协方差越小越好,类别之间的协方差越大越好,计算如下:
系统聚类
系统聚类按指标进行聚类,适用于小样本数据,其步骤如下:
把每个指标各自归为一类,比如有n个样本,则为n类
寻找最近的两个类,把它们归为一类,此时为n-1类
重新计算距离,进行归类,直到所有样本归为一类,结束
一般查看树状图进行查看数据分为几类更合适
原理应用到pearson相关和欧式距离,其中欧式距离计算如下:
模糊聚类
模糊聚类,每个样本以一定的隶属度进行分类,首先进行构建模糊相似矩阵,不需要训练样本,一般计算原理使用夹角余弦法以及相关系数法。
聚类是指利用计算机根据样本之间的相似度将整个样本集合聚集成若干个类的过程。其目标是使得属于同一个类的样本尽量相似,而属于不同类的样本差别明显。系统聚类法和k-Means算法是目前聚类分析中应用最多的两种方法。分类是根据已经掌握的每类若干样本的数据信息,总结出分类的规律性,建立判别公式和判别规则。
聚类和分类
当遇到新的样本时,只需根据判别公式和判别规则,就能判别该样本所属的类别。分类技术包括统计、模式识别、人工智能、神经网络等多个领域。目前常用的分类方法有Bayes判别法、k最近邻(kNN)方法、支持向量机(SVM)方法、决策树方法等。聚类是一种无指导的学习过程,而分类则是有指导的学习过程。
聚类和分类的区别还在于:聚类事先没有类表,完全是按照样本间的相似度来进行,即先有样本后有类;而分类则是基于某种预定的类表,将类表中的条目赋给样本,即先有类后有样本。