Rumia's blog

先写在这里提醒我自己,以后写写东西随手按一下 ctrl+s。。。

定义

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。 在数学,计算机科学,经济学,统计学,以及机器学习领域有着广泛的应用。

分类的区别

数据分类是分析已有的数据,寻找其共同的属性,并根据分类模型将这些数据划分成不同的类别,这些数据赋予类标号。这些类别是事先定义好的,并且类别数是已知的。相反,数据聚类则是将本没有类别参考的数据进行分析并划分为不同的组,即从这些数据导出类标号。聚类分析本身则是根据数据来发掘数据对象及其关系信息,并将这些数据分组。每个组内的对象之间是相似的,而各个组间的对象是不相关的。不难理解,组内相似性越高,组间相异性越高,则聚类越好 。聚类是无监督学习,就是把未标记的数据集通过算法的方式加以标记,而分类是监督学习。

常用算法

k-means算法(快速聚类)

​ 结合最小二乘法和拉格朗日原理,聚类中心为对应类别中各数据点的平均值,同 时为了使得算法收敛,在迭代过程中,应使最终的聚类中心尽可能的不变。

参考文献:

[1]张文彤《spss20.0统计分析高级教程第二版》288页

[2]https://www.cnblogs.com/xmeo/p/6543057.html