什么是半监督聚类分析?
半监督聚类是一种通过创建领域知识来划分未标记数据的方法。它通常表示为实例之间的成对约束或仅表示为一组附加的标记实例。
使用一些弱监督结构可以从本质上提高无监督聚类的质量,例如,以成对约束的形式(即,标记为属于相似或不同集群的对象对)。这种依赖于用户反馈或指导约束的聚类过程称为半监督聚类。
有几种半监督聚类方法可以分为两类,如下所示 -
基于约束的半监督聚类- 它可以基于用户提供的标签或约束使用,以支持算法向更合适的数据分区。这包括根据约束修改目标函数或根据标记对象初始化和约束聚类过程。
基于距离的半监督聚类- 它可用于采用自适应距离度量,该度量经过训练以满足监督数据中的标签或约束。使用了多种自适应距离度量,包括使用期望最大化 (EM) 训练的字符串编辑距离,以及通过最短距离算法改变的欧几里德距离。
一种有趣的聚类方法,称为 CLTree(CLustering based on decision TREEs)。它将无监督聚类与监督分类的概念相结合。它是基于约束的半监督聚类的一个实例。它将聚类任务转换为分类任务,将要聚类的点集视为属于一个类,标记为“Y”,并插入一组相对均匀分布的“不存在点”,并带有多个类标签,“否。”
将数据区域划分为数据(密集)区域和空(稀疏)区域的问题可以转变为分类问题。这些点可以被认为是一组“Y”点。它显示了一组均匀分布的“N”点的添加,由“o”点定义。
原来的聚类问题因此变成了分类问题,它设计出区分“Y”和“N”点的设计。可以使用决策树归纳法来划分二维空间。识别出两个簇,它们仅来自“Y”点。
它可用于在原始数据中插入大量“N”点可能会在计算中引入不必要的开销。此外,添加的某些点不太可能真正均匀分布在非常高维的空间中,因为这可能需要指数数量的点。
以上是 什么是半监督聚类分析? 的全部内容, 来源链接: utcz.com/z/353560.html