我们如何进一步提高基于 Apriori 的挖矿效率?

Apriori 算法的一些变体已被预测,旨在提高原始算法的效率,如下所示 -

基于散列的技术(将项集散列到相应的桶中) - 基于散列的技术可用于减小候选 k 项集 C k 的大小,对于 k > 1。例如,当扫描数据库中的每个事务时为了创建频繁的1-项集L 1,从C 1 中的候选1-项集,它可以为每个事务制作一些2-项集,将它们散列(即映射)到一个散列表结构的几个桶中,并且增加等效的桶数。

交易减少- 不包括一些频繁的 k 项集的交易不能包括一些频繁的 (k + 1) 项集。因此,可以将此类事务标记或删除以不再考虑,因为后续对数据库的 j 项集扫描(其中 j > k)将不需要它。

分区- 可以使用需要两次数据库扫描来挖掘频繁项集的分区技术。它包括两个阶段,涉及在阶段 I,算法将 D 的事务细分为 n 个不重叠的分区。如果 D 中事务的最小支持阈值为 min_sup,则分区的最小支持计数为 min_sup × 该分区中的事务数。

对于每个分区,发现分区内的所有频繁项集。这些被定义为局部频繁项集。该过程使用特定的数据结构,对于每个项目集,记录包括项目集中的项目的事务的 TID。这使它能够在仅对数据库的一次扫描中找到所有本地频繁 k 项集,对于 k = 1, 2...。

一个局部频繁项集可以也可以不频繁地与整个数据库 D 相关。任何可能频繁相关 D 的项集必须作为频繁项集出现,部分是分区之一。因此,所有局部频繁项集都是略为 D 的候选项集。来自所有分区的频繁项集集合形成了 D 的全局候选项集。在阶段 II 中,组织 D 的第二次扫描,其中评估每个候选项的实际支持度为确定全局频繁项集。

Sampling - 采样方法的基本思想是从给定数据 D 中选择一个随机样本 S,然后在 S 而不是 D 中搜索频繁项集。在这种方法中,它可以在一定程度上的准确性与效率之间进行权衡。S 的样本大小使得对 S 中频繁项集的搜索可以在主存中完成,因此总体上只需要对 S 中的事务进行一次扫描。

以上是 我们如何进一步提高基于 Apriori 的挖矿效率? 的全部内容, 来源链接: utcz.com/z/359158.html

回到顶部