聚类（Clustering）

 我来答

1个回答

#热议# 网上掀起『练心眼子』风潮，真的能提高情商吗？

完满且闲雅灬抹香鲸P
2022-07-22 · TA获得超过1.7万个赞

知道小有建树答主

回答量：380

采纳率：0%

帮助的人：71.2万

我也去答题访问个人页

关注

展开全部

首先我们先来认识一下什么是聚类任务。
聚类是“无监督学习（unsupervised learning）”中重要的一种。其目标是：通过对无标记的训练样本学习，来揭示数据内在的性质以及规律，为进一步的数据分析做基础。聚类的结果是一个个的簇（Cluster）。所以来说，聚类通常作为其他学习算法的先导，比如在分类问题中，常常先做聚类，基于聚类的不同簇来进行分类模型的训练。
我们先来认识一下聚类算法涉及到两个基本问题：性能度量 & 距离计算。后面我们再具体讲解聚类的经典算法。

由于聚类算法是无监督式学习，不依赖于样本的真实标记。所以聚类并不能像监督学习例如分类那样，通过计算对错（精确度/错误率）来评价学习器的好坏或者作为学习器的优化目标。一般来说，聚类有两类性能度量指标：外部指标和内部指标

所谓外部，是将聚类结果与某个参考模型的结果进行比较， 以参考模型的输出作为标准，来评价聚类的好坏。 假设聚类给出的结果为 λ，参考模型给出的结果是λ*，则我们将样本进行两两配对，定义：

内部指标不依赖任何外部模型，直接对聚类的结果进行评估。直观来说： 簇内高内聚，簇间低耦合 。定义：

我们从小学的距离都是欧氏距离。这里介绍几种其他的距离度量方法：

这里对于无需属性我们用闵可夫斯基距离就不能做，需要用VDM距离进行计算，对于离散属性的两个取值a和b，定义：

所以在计算两个样本的距离时候，将两种距离混合在一起进行计算：

原型聚类即“基于原型的聚类（prototype-based clustering）”，原型指的是样本空间中具有代表性的点（类似于K-Means 选取的中心点）。通常情况下来说，算法现对原型进行初始化，然后对原型进行迭代更新求解。而不同的初始化形式和不同的求解方法，最终会得到不同的算法。常见的 K-Means 便是基于簇中心来实现聚类；混合高斯聚类则是基于簇分布来实现聚类。下面我们具体看一下几种算聚类算法：

K-Means 聚类的思想十分简单， 首先随机指定类中心，根据样本与类中心的远近划分类簇；然后重新计算类中心，迭代直至收敛。 实际上，迭代的过程是通过计算得到的。其根本的优化目标是平方误差函数E：

其中 u_i 是簇 C_i 的均值向量。直观上来看，上式刻画了簇内样本围绕簇均值向量（可以理解为簇中心）的紧密程度，E值越小，则簇内样本的相似度越高。
具体的算法流程如下：

书上还给出了基于具体西瓜样本集的计算过程说明。可以看一下。

LVQ 也是基于原型的聚类算法，与K-Means 不同的是， LVQ使用样本的真实类标记来辅助聚类 。首先，LVQ根据样本的类标记，从各类中分别随机选出一个样本作为该类簇的原型，从而形成了一个 原型特征向量组 ，接着从样本集中随机挑选一个样本，计算其与原型向量组中每个向量的距离，并选取距离最小的向量所在的类簇作为该样本的划分结果，再与真实类标比较：

可以看到，K-Means 和 LVQ 都是以类中心作为原型指导聚类，而高斯混合聚类则采用 高斯分布 来描述原型。现在假设每个类簇中的样本都服从一个多维高斯分布，那么空间中的样本可以看做由K个多维高斯分布混合而成。
多维高斯的概密为：

密度聚类是基于密度的聚类，它从个样本分布的角度来考察样本之间的 可连接性 ，并基于可连接性（密度可达）不断拓展疆域（类簇）。最著名的就是DBSCAN（Density-Based Spatial Clustering of Applications with Noise），首先我们需要明白以下概念：

层次聚类试图在不同层次对数据集进行划分，从而形成属性的聚类结构。
这里介绍一种“自底向上”结合策略的 AGNES（AGglomerative NESting）算法。假设有N个待聚类的样本，AGNES算法的基本步骤如下：

可以看出其中最关键的一步就是 计算两个类簇的相似度 ，这里有几种度量方法：
（1）单链接（singal-linkage）：取类间最小距离

已赞过 已踩过<

评论收起

光点科技
2023-08-15 广告

通常情况下，我们会按照结构模型把系统产生的数据分为三种类型：结构化数据、半结构化数据和非结构化数据。结构化数据，即行数据，是存储在数据库里，可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据，它们可以某种标准格式存在于文件... 点击进入详情页

本回答由光点科技提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

聚类（Clustering）

其他类似问题

为你推荐：