聚类和分类的区别

 我来答

2个回答

#热议# 空调使用不当可能引发哪些疾病？

SPSSAU
2023-11-13 · 百度认证:SPSSAU官方账号,优质教育领域创作者

SPSSAU

SPSSAU，也称"在线SPSS"，一款网页版数据科学算法平台系统，提供"拖拽点一下"的极致体验和智能化分析结果。

向TA提问

关注

展开全部

分类是已知类别。

聚类是未知类别。

典型的聚类分析一般包括三个阶段，特征选择、特征提取和数据对象见相似度的计算，可以对样品进行聚类也可以对变量进行聚类。具体划分如下：

K-means聚类

K-means聚类流程如下：

Step1：选择聚类个数k

Step2:生成k个聚类中心点

Step3:计算所有样本点到中心点的距离，根据距离进行聚类

Step4:进行迭代

Step5:重复迭代，达到收敛要求

K-means聚类算法效果分析一般可以看SSE指标、轮廓系数法、CH系数，需要分析人员在分析前进行多次对比从而达到模型更优的目的。

算法效果一般可以参考，SSE指标、轮廓系数、CH系数等等。

SSE指标（误差平方和）：

误差平方和是指真实值和预测值的差，比如：

在聚类分析中的SSE计算如下：

从图片上来看SSE（左图）>SSE(右图)，同时也可以看出左侧更稀疏右侧更密集，SSE想要达到最优解，还需要初始聚类中心的选择，否则只能达到一个局部最优解，初始聚类中心的选择可以参考“肘部法”，一般认为“拐点”即下降率突然变缓慢时，认为此点为最佳k值。比如：

轮廓系数（SC系数）：

轮廓系数适用于实际类别信息未知的情况，结合凝聚度和分散度，计算如下：

CH系数：

利用协方差进行判断，类别内的协方差越小越好，类别之间的协方差越大越好，计算如下：

系统聚类

系统聚类按指标进行聚类，适用于小样本数据，其步骤如下：

把每个指标各自归为一类，比如有n个样本，则为n类
寻找最近的两个类，把它们归为一类，此时为n-1类
重新计算距离，进行归类，直到所有样本归为一类，结束
一般查看树状图进行查看数据分为几类更合适

原理应用到pearson相关和欧式距离，其中欧式距离计算如下：

模糊聚类

模糊聚类，每个样本以一定的隶属度进行分类，首先进行构建模糊相似矩阵，不需要训练样本，一般计算原理使用夹角余弦法以及相关系数法。

已赞过 已踩过<

评论收起

机器1718
2022-07-06 · TA获得超过6801个赞

知道小有建树答主

回答量：2805

采纳率：99%

帮助的人：157万

我也去答题访问个人页

关注

展开全部

聚类是指利用计算机根据样本之间的相似度将整个样本集合聚集成若干个类的过程。其目标是使得属于同一个类的样本尽量相似，而属于不同类的样本差别明显。系统聚类法和k-Means算法是目前聚类分析中应用最多的两种方法。分类是根据已经掌握的每类若干样本的数据信息，总结出分类的规律性，建立判别公式和判别规则。