5.2.2 K-Mean聚类算法

 我来答
华源网络
2022-06-08 · TA获得超过5592个赞
知道小有建树答主
回答量:2486
采纳率:100%
帮助的人:146万
展开全部

K-Means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据换分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
算法过程

连续属性
要先对各个属性值进行 零 - 均值规范,再进行距离计算。在K-Means中聚类算法中,一般需要度量样本之间的距离、样本与簇之间的距离、簇与簇之间的距离

零-均值规范化
也称为标准差标准化,经过处理的数据的均值为0,标准差为1。
转化公式: 当前使用最多的数据标准化方法

实践中,为得到较好的结果,通常选择不同初始聚类中心,多次运行K-Means算法。
在所有对象分配完成后,重新计算K个聚类的中心时,对于连续数据,聚类中心取该簇的均值,但当样本的某些属性是分类变量时,均值可能无定义,可以使用K-众数方法。

使用误差平法和SSE(sum of squared errors)作为度量聚类质量的目标函数,对于两种不同的聚类结果,选择误差平方和较小的分类结果





总结
分群1特点:R间隔相对较大,主要集中在30 80天;消费次数集中在0 15次;消费金额在:0~2000;
分群2特点:R间隔相对较小,主要集中在0 30天;消费次数集中在0 10次;消费金额在:0~1800;
分群3特点:R间隔相对较小,主要集中在0 30天;消费次数集中在10 25次;消费金额在:500~2000;
对比分析
分群3时间间隔短,消费次数多,消费金额大,是高消费、高价值人群。
分群2时间间隔、消费次数、消费金额中等水平,代表着一般价值客户。
分群1时间间隔长、消费次数较少、消费金额不是特别高,价值较低的客户群体。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式