什么是基于模型的聚类？

基于模型的聚类是一种数据聚类的统计方法。观察到的（多变量）数据被认为是从组件模型的有限组合中创建的。每个分量模型都是一个概率分布，一般是参数多元分布。

例如，在多元高斯混合模型中，每个分量都是多元高斯分布。负责生成特定观察的组件确定观察所属的集群。

基于模型的聚类是一种尝试提高给定数据与某些数学模型之间的拟合，并且基于数据是由基本概率分布的组合创建的假设。

有以下类型的基于模型的聚类如下 -

统计方法- 期望最大化是一种流行的迭代细化算法。k-means 的扩展 -

基本思想如下 -

算法

期望步骤- 它可以将每个数据点 X _i分配给集群 C _i具有以下概率

$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{ P(C_k)P(X_i\arrowvert\:C_k )}{ P(X_i)}}$$

最大化步骤- 可用于估计模型参数

$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) }{X_{j} P(X_i)\in\:C_j}}$$

机器学习方法- 机器学习是一种为大量数据处理制作复杂算法并为其用户提供结果支持的方法。它使用可以通过经验理解并创建预测的复杂程序。

通过频繁输入训练信息，算法自身得到改进。机器学习的主要目标是学习数据并从人类可以理解和使用的数据中构建模型。

它是一种著名的增量概念学习方法，它以分类树的形式产生层次聚类。每个节点定义一个概念并包含该概念的概率表示。

限制

神经网络方法- 神经网络方法将每个集群表示为一个示例，充当集群的原型。根据某种距离度量，新对象被分配到其示例最相似的集群。