集成聚类系列(二):常用的聚类算法及聚类算法评价指标

 我来答
新科技17
2022-05-31 · TA获得超过5906个赞
知道小有建树答主
回答量:355
采纳率:100%
帮助的人:75万
展开全部

代表:kmeans算法

代表:CURE算法

代表:STING算法

代表:DBSCAN算法

代表:SOM算法

代表:谱聚类算法

一个好的聚类方法可以产生高品质簇,是的簇内相似度高,簇间相似度低。一般来说,评估聚类质量有两个标准,内部质量评价指标和外部评价指标。

内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度,簇间平均相似度或簇内平均相似度来评价聚类质量。评价聚类效果的高低通常使用聚类的有效性指标,所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH(Calinski-Harabasz)指标等

CH指标定义为:

其中 表示类间距离差矩阵的迹, 表示类内离差矩阵的迹, 是整个数据集的均值, 是第 个簇 的均值, 代表聚类个数, 代表当前的类。 值越大,聚类效果越好, 主要计算簇间距离与簇内距离的比值

簇内点对的平均距离反映了簇的凝聚度,一般使用组内误差平方(SSE)表示:

簇的邻近度用组间平方和(SSB)表示,即簇的质心 到簇内所有数据点的总平均值 的距离的平方和

外部质量评价指标是基于已知分类标签数据集进行评价的,这样可以将原有标签数据与聚类输出结果进行对比。外部质量评价指标的理想聚类结果是:具有不同类标签的数据聚合到不同的簇中,具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵,纯度等指标进行度量。

簇内包含单个类对象的一种度量。对于每一个簇,首先计算数据的类分布,即对于簇 ,计算簇 的成员属于类 的概率

其中 表示簇 中所有对象的个数,而 是簇 中类 的对象个数。使用类分布,用标准公式:

计算每个簇 的熵,其中K是类个数。簇集合的总熵用每个簇的熵的加权和计算即:

其中 是簇的个数,而 是簇内数据点的总和

簇内包含单个类对象的另外一种度量。簇 的纯度为 ,而聚类总纯度为:

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式