数据挖掘中的度量是如何计算的？

Z时代
2024-01-10
分类：综合

度量可以被组织成三个元素，包括分布的、代数的和整体的。这取决于所使用的聚合函数的类型。

Distributive - 如果聚合函数可以按如下交付方式计算，则它是分布式的。考虑数据独立成 n 个集合。它可以对每个分区使用该服务，从而产生 n 个聚合值。

如果使用该函数对n个聚合值的改变结果与使用该函数对整个数据集（没有分区）得到的结果相同，则可以以分布式方式评估该函数。

例如，count()可以通过首先将多维数据集划分为一组子多维数据集，对每个子多维数据集进行计算count()，然后对每个子多维数据集获取的计数求和来计算数据多维数据集。因此，count()是一种分布式聚合服务。

如果度量是通过使用分布式聚合服务获得的，那么它就是分布式的。分配措施可以有效地计算，因为它们可以以分配方式计算。

代数- 如果可以通过具有 M 个参数（其中 M 是有界正整数）的代数服务计算聚合函数，则聚合函数是代数的，每个参数都是通过使用分布式聚合服务获得的。

例如，avg()（平均值）可以通过sum()/计算count()，其中sum()和count()都是分布式聚合服务。类似地，可以显示 minN()和 max N()（相应地在给定集合中发现 N 个最小值和 N 个最大值）和 standarddeviation()是代数聚合服务。如果度量是通过使用代数聚合服务获得的，则它是代数的。

Holistic - 如果定义子聚合所需的存储大小没有固定界限，则聚合函数是整体的。如果不存在描述计算的具有 M 个参数（其中 M 是常数）的代数函数。

整体函数的示例，例如中位数 ()、众数 () 和秩 ()。如果测量是通过使用整体聚合函数获得的，则它是整体的。

大多数大型数据立方体应用程序需要有效计算分配和代数度量。存在一些有效的方法。相比之下，有效地计算整体度量是复杂的。仍然存在一种近似计算某些整体度量的有效方法。

例如median()，可以用来计算庞大数据集的近似中值，而不是计算精确值。在某些情况下，这些方法足以克服有效计算整体措施的困难。

以上是数据挖掘中的度量是如何计算的？的全部内容，来源链接： utcz.com/z/297161.html

数据挖掘中的度量是如何计算的？

其他人也看了：