kmeans算法原理

 我来答
青尢娱记
2023-05-16 · 人生初见,春和景明。
青尢娱记
采纳数:291 获赞数:77

向TA提问 私信TA
展开全部

kmeans算法原理如下:

K-means算法是一种典型的基于划分的聚类算法该算法具有运算速度快,执行过程简单的优点,在很多大数据处理领域得到了广泛的应用。

利用相似性度量方法来衡量数据集中所有数据之间的关系,将关系比较密切的数据划分到一个集合中。K-means算法首先需要选择K个初始化聚类中,计算每个数据对象到K个初始化聚类中心的距离。

将数据对象分到距离聚类中心最近的那个数据集中,.当所有数据对象都划分以后,就形成了K个据集(即K个簇),接下来重新计算每个簇的数据对象的均值,将均值作为新的聚类中心。

最后计算每个数据对象到新的K个初始化聚类中心的距离,重新划分,每次划分以后,都需要重新计算初始化聚类中心,一直重复这个过程,直到所有的数据对象无法更新到其他的数据集中。

知识扩展:

k-means算法优缺点

1、优点:算法简单易实现。对于大数据集,这种算法相对可伸缩且是高效的,计算复杂度为O(TNk}接近于线性(其中T是迭代次数、N是样本总数、k为聚类簇数)。虽然以局部最优结束,但一般情况 下达到的局部最优已经可以满足聚类的需求。

2、缺点:需要人工预先确定初始K值,该值与实际的类另数可能不吻合。tK均值只能收敛到局部最优。因为求解这个代价函数是个NP问题,采用的是贪心策略,所以只能通过多次迭代收敛到局部最优,而不是全局最优。

K<均值的效果受初始值和离群点的影响大。因为k均值本质上是基于距离度量来划分的,均值和差大的维度将对数据的聚类结果产生决定性的影响,因此需要进行归-化处理:此外,离群点或噪声对均值会产生影响,导致中心偏移,因此需要进行预处理。

富港检测技术(东莞)有限公司_
2024-05-27 广告
ISTA3E程序是对相同产品的集合包装的综合模拟性能测试,集合包装件被定义为将一个产品、多个产品或包装件放置在滑板或托盘上,固定在一起或是作为一个单元运输。例如:一台机器由带瓦楞底托的托盘上、瓦楞侧围、顶盖包装,用缠绕膜缠绕在托盘上。用于评... 点击进入详情页
本回答由富港检测技术(东莞)有限公司_提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式