集成聚类系列（二）：常用的聚类算法及聚类算法评价指标

 我来答

1个回答

新科技17
2022-05-31 · TA获得超过5906个赞

知道小有建树答主

回答量：355

采纳率：100%

帮助的人：75万

关注

展开全部

代表：kmeans算法

代表：CURE算法

代表：STING算法

代表：DBSCAN算法

代表：SOM算法

代表：谱聚类算法

一个好的聚类方法可以产生高品质簇，是的簇内相似度高，簇间相似度低。一般来说，评估聚类质量有两个标准，内部质量评价指标和外部评价指标。

内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度，簇间平均相似度或簇内平均相似度来评价聚类质量。评价聚类效果的高低通常使用聚类的有效性指标，所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH（Calinski-Harabasz）指标等

CH指标定义为：

其中表示类间距离差矩阵的迹，表示类内离差矩阵的迹，是整个数据集的均值，是第个簇的均值，代表聚类个数，代表当前的类。值越大，聚类效果越好，主要计算簇间距离与簇内距离的比值

簇内点对的平均距离反映了簇的凝聚度，一般使用组内误差平方（SSE）表示：

簇的邻近度用组间平方和（SSB）表示，即簇的质心到簇内所有数据点的总平均值的距离的平方和

外部质量评价指标是基于已知分类标签数据集进行评价的，这样可以将原有标签数据与聚类输出结果进行对比。外部质量评价指标的理想聚类结果是：具有不同类标签的数据聚合到不同的簇中，具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵，纯度等指标进行度量。

簇内包含单个类对象的一种度量。对于每一个簇，首先计算数据的类分布，即对于簇，计算簇的成员属于类的概率

其中表示簇中所有对象的个数，而是簇中类的对象个数。使用类分布，用标准公式：

计算每个簇的熵，其中K是类个数。簇集合的总熵用每个簇的熵的加权和计算即：

其中是簇的个数，而是簇内数据点的总和

簇内包含单个类对象的另外一种度量。簇的纯度为，而聚类总纯度为：

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

为你推荐：