空间数据挖掘的聚类方法有哪些?

聚类分析是统计的一个分支,已被广泛研究了数年。使用这种技术的好处是可以直接从数据中发现有趣的结构或集群,而无需利用任何背景知识,例如概念层次结构。

据报道,统计中使用的聚类算法(如 PAM 或 CLARA)从计算复杂性的角度来看效率低下。根据效率问题,开发了一种称为 CLARANS(基于随机搜索的大型应用程序聚类)的新算法用于聚类分析。

PAM (Partitioning around Medoids) - 假设有 n 个对象,PAM 通过首先为每个集群找到一个代表对象来找到 k 个集群。这样的代表,即集群中位于中心的点,被称为中心点。

在选择了 k 个中心点之后,该算法反复尝试创建中心点的最佳选择,分析所有可行的对象对,使得一个对象是中心点而另一个不是。为每个这样的组合计算聚类质量的度量。

在一次迭代中选择好的点被选为下一次迭代的中心点。单次迭代的成本为 O(k(n−k) 2 ) 。因此,对于较大的 n 和 k 值,它的计算效率非常低。

CLARA (Clustering Large Applications) - PAM 和 CLARA 算法之间的区别在于以下算法基于采样。只有一小部分真实数据被选择作为数据的代表,并且使用 PAM 从该样本中选择中心点。

这个想法是,如果以相当随机的方式选择样本,那么它正确地代表了整个数据集,因此,选择的代表对象(medoids)将与从整个数据集中选择的相似。

CLARA 抽取几个样本并从这些样本中输出良好的聚类。CLARA 可以处理比 PAM 更高的数据集。现在每次迭代的复杂度变为 O(kS 2 +k(n−k)),其中 S 是样本的大小。

CLARANS (Clustering Large Applications based on RANdomized Search) - CLARANS 算法通过仅搜索数据集的子集结合了 PAM 和 CLARA,并且它不会在任何给定时间将自身限制为某个样本。虽然 CLARA 在搜索的每个阶段都有一个恒定样本,但 CLARANS 在搜索的每个阶段都会抽取一个具有一定随机性的样本。

聚类阶段可以表现为搜索一个图,其中每个节点都是一个可能的解决方案,即一组 k 个中心点。替换单个中心点后得到的聚类称为当前聚类的邻居。

以上是 空间数据挖掘的聚类方法有哪些? 的全部内容, 来源链接: utcz.com/z/297158.html

回到顶部