分类和聚类的区别
分类和聚类的区别:定义不同、功能不同、是否有监督、数据处理的顺序不同、算法不一样。
1、定义不同
分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的。
2、功能不同
分类算法的基本功能是做预测。我们已知某个实体的具体特征,然后想判断这个实体具体属于哪一类,或者根据一些已知条件来估计感兴趣的参数。聚类算法的功能是降维。假如待分析的对象很多,我们需要归归类,划划简,从而提高数据分析的效率,这就用到了聚类的算法。
3、是否有监督
分类是有监督的算法,而聚类是无监督的算法。有监督的算法并不是实时的,需要给定一些数据对模型进行训练,有了模型就能预测。而聚类算法是实时的,换句话说是一次性的,给定统计指标,根据对象与对象之间的相关性,把对象分为若工类。
4、数据处理的顺序不同
分类算法中,待分析的数据是一个一个处理的,分类的过程,就像给数据贴标签的过程,来一个数据,我放到模型里,然后贴个标签。聚类算法中,待分析的数据同时处理,来一堆数据过来,同时给分成几小堆。因此,数据分类算法和数据聚类算法的最大区别是时效性问题。
5、算法不一样
典型的分类算法有:决策树,神经网络,支持向量机模型,Logistic回归分析,以及核估计等等。聚类的方法有,基于链接关系的聚类算法,基于中心度的聚类算法,基于统计分布的聚类算法以及基于密度的聚类算法等等。