什么是数据清洗？

Z时代
2024-01-10
分类：综合

数据清洗定义了通过填充缺失值、平滑噪声数据、分析和去除异常值以及去除数据中的不一致来清洗数据。有时多个详细级别的数据可能与所需的数据不同，例如，它可能需要 20-30、30-40、40-50 的年龄范围，并且导入的数据包括出生日期。可以通过将数据拆分为适当的类型来清理数据。

数据清洗的类型

有各种类型的数据清理如下 -

缺失值- 缺失值填充了适当的值。有以下方法来填充值。

当元组包含多个缺失值的属性时，它会被忽略。
手动填充缺失值的值。
相同的全局常量可以填充这些值。
属性均值可以填补缺失值。
最可能的值可以填补缺失值。

噪声数据- 噪声是测量变量中的随机误差或方差。有以下平滑方法来处理噪声，如下所示 -

Binning - 这些方法通过查询其“邻域”来平滑排列数据值，尤其是噪声信息周围的值。排列的值分布到多个桶或箱中。因为分箱方法会参考值的邻域，所以它们实现了局部平滑。
回归- 可以通过将信息拟合到函数来平滑数据，包括回归。线性回归包含找到适合两个属性（或变量）的“最佳”线，以便一个属性可用于预测另一个。多元线性回归是线性回归的发展，其中包含两个以上的属性并且数据适合多维区域。
聚类- 聚类支持识别异常值。相同的值被组织成集群，那些落在集群之外的值被称为异常值。
结合计算机和人工检查- 在计算机和人工检查的支持下也可以识别异常值。异常值模式可以是描述性的，也可以是垃圾。具有惊人价值的模式可以输出到列表中。

不一致数据- 不一致可以记录在各种事务中，在数据输入期间，或由于集成来自多个数据库的信息而引起。一些冗余可以通过相关分析来识别。准确和适当地整合来自各种来源的数据可以减少和避免冗余。

以上是什么是数据清洗？的全部内容，来源链接： utcz.com/z/347484.html

回到顶部