什么是数据集成？

Z时代
2024-01-10
分类：综合

数据集成是组合来自多个不同来源的数据的阶段。在实施数据集成时，要处理数据的冗余、不一致、重复等问题。在数据挖掘中，数据集成是一种数据预处理技术，包括将来自众多异构数据源的数据合并成一致的数据，以保留和支持统一的观点的信息。

它将来自各种来源的数据组合到一个连贯的数据存储中，包括在数据仓库中。这些来源可能涉及多个数据库、数据立方体或平面文件等。在数据集成过程中需要考虑多个问题。

模式集成和对象匹配可能很复杂。例如，匹配实体标识（一个数据库中的 emp_id 和另一个数据库中的 emp_no），可以使用元数据来防止此类问题。
冗余是另一个问题。例如，如果包含年收入的属性可以从另一个属性或一组属性导出，则它可能是多余的。属性或维度命名的不一致也会在出现的数据集中产生冗余。
通过相关分析可以发现一些冗余。给定两个属性，这种分析可以根据可用数据计算一个属性对另一个属性的暗示程度。对于数值属性，它可以通过计算相关系数（也称为 Pearson 积矩系数，以其发明者 Karl Pearson 的名字命名）来评估 A 和 B 两个属性之间的相关性。这是

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$

其中 N 为元组数，a _i和 b _i分别为元组 i 中 A 和 B 的值，A ^'和 B ^'分别为 A 和 B 的平均值，σ _A和 σ _B分别为标准偏差A 和 B 和 Σ(a _i b _i ) 是 AB 叉积的总和，即对于每个元组，A 的值乘以该元组中 B 的值。

相关性并不意味着因果关系。也就是说，如果 A 和 B 相关，这并不一定意味着 A 导致 B 或 B 导致 A。例如，在分析人口统计数据库时，它可以找到定义多个医院和几个汽车盗窃的属性区域是相关的。这并没有定义一个导致另一个。两者通常都与第三个属性有关，例如人口。

数据集成中的第三个重要问题是数据值冲突的检测和解决。例如，对于同一个现实世界的实体，来自多个来源的属性值可能不同。这可能是因为表示、缩放或编码的差异。

以上是什么是数据集成？的全部内容，来源链接： utcz.com/z/355716.html