什么是概念聚类?

概念聚类是机器学习中的一种聚类形式,给定一组未标记的对象,对这些对象进行分类设计。与通常识别相似对象组的传统聚类不同,概念聚类更进一步,还发现每个组的特征定义,其中每个组定义一个概念或类。

因此,概念聚类是一个两步过程 - 首先实现聚类,然后是特征化。因此,聚类质量不仅仅是单个对象的服务。大多数概念聚类技术采用统计方法,该方法使用概率测量来确定概念或聚类。

概率描述通常用于定义每个派生概念。COBWEB 是一种著名且简单的增量概念聚类方法。其输入对象由分类属性-值对定义。COBWEB以分类树的形式进行层次聚类。

分类树不同于决策树。分类树中的每个节点定义一个概念,并包括该概念的概率描述,它总结了在节点下分类的对象。概率描述包含形式的概念概率和条件概率 $P(A_{i}=v_{ij}|C_{k})$是一个属性值对(第 i属性取其j可能值),C k是概念类。

COBWEB 使用一种称为类别效用的启发式评估方法来指导树的构建。类别效用 (CU) 定义为

$$\frac{\sum_{k=1}^{n}P(C_{k})\left [\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{ k})^{2}-\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}\right ]}{n}$$

其中 n 是在树的给定级别形成分区 {C 1 ,C 2 ,..., C n }的节点、概念或“类别”的数量。换句话说,类别效用是在给定分区的情况下可以完美猜测的属性值的预期数量的增加(其中该预期数量对应于术语 $P(C_{k})\sum_{i}\sum_{j }P(A_{i}=v_{ij}|C_{k})^{2}$在没有这种知识的情况下预期正确猜测的数量(对应于术语 $\sum_{i}\sum_{j} P(A_{i}=v_{ij})^{2}$。虽然它没有空间显示推导,类别效用奖励类内相似性和类间相异性,其中 -

类内相似度- 它是概率 $P(A_{i}=v_{ij}|C_{k})$。该值越高,共享该属性值对的类成员的比例越高,并且该对的类成员的可预测性越高。

类间差异- 这是概率 $P(C_{k}|A_{i}=v_{ij})$。该值越高,对比类中共享该属性值对的对象越少,并且该对对该类的预测性越强。

COBWEB 沿着合适的路径下降树,沿途刷新计数,以寻找定义对象的“最佳宿主”或节点。该决定取决于在每个节点中临时定位对象并评估结果分区的类别效用。导致最高类别实用程序的放置应该是对象的最佳宿主。

以上是 什么是概念聚类? 的全部内容, 来源链接: utcz.com/z/354387.html

回到顶部