聚类算法划分法

聚类算法划分法划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K

而且这K个分组满足下列条件:(1) 每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好

大部分划分方法是基于距离的

给定要构建的分区数k,划分方法首先创建一个初始化划分

然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分

一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同

还有许多评判划分质量的其他准则

传统的划分方法可以扩展到子空间聚类,而不是搜索整个数据空间

当存在很多属性并且数据稀疏时,这是有用的

为了达到全局最优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大

实际上,大多数应用都采用了流行的启发式方法,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部最优解

这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇

为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法

 使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关