数据分析之聚类分析

 我来答

1个回答

#热议# 在购买新能源车时，要注意哪些？

机器1718
2022-07-23 · TA获得超过6825个赞

知道小有建树答主

回答量：2805

采纳率：99%

帮助的人：159万

我也去答题访问个人页

关注

展开全部

RFM分析只能对客户的行为进行分析，包含的信息量有点少。一般来说，对人群进行分类，要综合考虑其行为、态度、模式以及相关背景属性，通过使用特定的方法，发现隐藏在这些信息背后的特征，将其分成几个类别，每一类具有一定的共性，进而做出进一步的探索研究。这个分类的过程就是聚类分析。

聚类分析，就是按照个体的特征将它们分类，目的在于让同一个类别内的个体之间具有较高的相似度，而不同类别之间具有较大的差异性。这样，就能够根据不同类别的特征有的放矢地进行分析，并制定出适用于不同类别的解决方案。

聚类可以对变量进行聚类，但是更常见的还是对个体进行聚类，也就是样本聚类。例如对用户、渠道、商品、员工等方面的聚类，聚类分析主要应用在市场细分、用户细分等领域。

为了合理的聚类，需要采用适当的指标来衡量研究对象之间的联系紧密程度，常用的指标有“距离”和“相似系数”，相似系数一般指的是相关系数。假设将研究对象采用点表示，聚类分析时，将“距离”较小的点或“相似系数”较大的点归为同一类，将“距离”较大的点或“相似系数”较小的点归为不同的类。

聚类分析具有如下特点：

1.对于聚类结果是未知的，不同的聚类分析方法可能得到不同的分类结果，或者相同的聚类分析方法但是所分析的变量不同，也会得到不同的聚类结果；

2.对于聚类结果的合理性判断比较主观，只要类别内相似性和类别间差异性都能得到合理的解释和判断，就认为聚类结果是可行的。

聚类分析可以应用于以下场景：

聚类分析的步骤：

（1）确定需要参与聚类分析的变量；

（2）对数据进行标准化处理；

因为各个变量间的变量值的数量级别差异较大或者单位不一致，例如一个变量的单位是元，另一个变量的单位是百分比，数量级别差异较大，而且单位也不一致，无法直接进行比较或者计算“距离”和“相似系数”等指标。

（3）选择聚类方法和类别个数；

（4）聚类分析结果解读；

常用的聚类方法包括：

1.快速聚类：也称K均值聚类，它是按照一定的方法选取一批聚类中心点，让个案向最近的聚类中心点聚集形成初始分类，然后按照最近距离原则调整不合理的分类，直到分类合理为止。

2.系统聚类：也称层次聚类，首先将参与聚类的个案（或变量）各视为一类，然后根据两个类别之间的聚类或者相似性逐步合并，直到所有个案（或变量）合并为一个大类为止。实际上，系统聚类分析结果展现了每个个案的聚类过程和分类结果。系统聚类之后，要制作交叉表通过每一个类别的均值来了解每一类别的特征。

3.二阶聚类：也称两步聚类，它是随着人工智能的发展起来的一种智能聚类方法。整个聚类方法分为两个步骤，第一个步骤是预聚类，就是根据定义的最大类别数对个案进行初步归类；第二个步骤是正式聚类，就是对第一步得到的初步归类进行再聚类并确定最终聚类结果，并且在这一步中，会根据一定的统计标准确定聚类的类别数。

（1）系统聚类分析不仅支持输入单个分类数量，还支持输入分类数量的范围。这对于暂时无法确定类别数，或者想进行多类别数的结果比较时，非常方便。

（2）系统聚类分析支持生成聚类结果图，从而更加直观地查看聚类过程。系统聚类分析支持两种图形：

谱系图（树状图）：它以树状的形式展现个案被分类的过程；

冰柱图：它以“X”的形式显示全部类别或指定类别数的分类过程。

（3）系统聚类分析提供多种聚类方法和适用于不同数据类型的测量方法。

其中，测量方法（度量标准）：

（i）区间：适用于连续变量，虽然SPSS提供了8种测量方法，但是通常选用默认的【平方欧式距离】即可。

（ii）计数：适用于连续或分类变量，SPSS提供了2种测量方法，通常选用【卡式测量】即可。

（iii）二元：适用于0/1分类变量，SPSS提供多达27种测量方法，通常选用【平方欧式距离】即可。

通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量，所以，【测量】应选择【区间】项，方法为默认的【平方欧式距离】，标准化可以选择【Z得分】，选择按【变量项】，用以每个变量单独进行标准化。

二阶聚类分析能够对连续变量和分类变量同时进行处理，无需提前指定聚类的数目，二阶聚类会自动分析并输出最优聚类数。二阶聚类的自动聚类结果借由统计指标施瓦兹贝叶斯准则（BIC）帮助判断最佳分类数量。判断一个聚类方案的依据是BIC的数值越小，同时，“BIC变化量”的绝对值和“距离测量比率”数值越大，则说明聚类效果越好。

聚类分析属于探索性数据分析方法，它没有一个所谓的标准流程和答案，不同的数据有不同的适用方法，即使相同的数据，应用不同的方法也可能会得到不同的结果。只要能有效解决实际业务问题即可。

已赞过 已踩过<

评论收起

迈杰
2024-11-30 广告

RNA-seq数据分析是转录组研究的核心，包括数据预处理、序列比对、定量分析、差异表达分析、功能注释和可视化等步骤。数据预处理主要是质量控制和去除低质量序列。序列比对使用HISAT2、STAR等工具将reads比对到参考基因组。定量分析评估... 点击进入详情页

本回答由迈杰提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

数据分析之聚类分析

其他类似问题

为你推荐：