集成聚类系列(二):常用的聚类算法及聚类算法评价指标
代表:kmeans算法
代表:CURE算法
代表:STING算法
代表:DBSCAN算法
代表:SOM算法
代表:谱聚类算法
一个好的聚类方法可以产生高品质簇,是的簇内相似度高,簇间相似度低。一般来说,评估聚类质量有两个标准,内部质量评价指标和外部评价指标。
内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度,簇间平均相似度或簇内平均相似度来评价聚类质量。评价聚类效果的高低通常使用聚类的有效性指标,所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH(Calinski-Harabasz)指标等
CH指标定义为:
其中 表示类间距离差矩阵的迹, 表示类内离差矩阵的迹, 是整个数据集的均值, 是第 个簇 的均值, 代表聚类个数, 代表当前的类。 值越大,聚类效果越好, 主要计算簇间距离与簇内距离的比值
簇内点对的平均距离反映了簇的凝聚度,一般使用组内误差平方(SSE)表示:
簇的邻近度用组间平方和(SSB)表示,即簇的质心 到簇内所有数据点的总平均值 的距离的平方和
外部质量评价指标是基于已知分类标签数据集进行评价的,这样可以将原有标签数据与聚类输出结果进行对比。外部质量评价指标的理想聚类结果是:具有不同类标签的数据聚合到不同的簇中,具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵,纯度等指标进行度量。
簇内包含单个类对象的一种度量。对于每一个簇,首先计算数据的类分布,即对于簇 ,计算簇 的成员属于类 的概率
其中 表示簇 中所有对象的个数,而 是簇 中类 的对象个数。使用类分布,用标准公式:
计算每个簇 的熵,其中K是类个数。簇集合的总熵用每个簇的熵的加权和计算即:
其中 是簇的个数,而 是簇内数据点的总和
簇内包含单个类对象的另外一种度量。簇 的纯度为 ,而聚类总纯度为: