数据仓库和数据挖掘
数据仓库
数据仓库是工具和技术的集合,利用这些工具和技术可以从大量数据中清除更多的知识。这有助于决策过程并改善信息资源。
数据仓库基本上是具有唯一数据结构的数据库,该数据库可以相对快速,轻松地对大量数据执行复杂的查询。它是从多个异构源创建的。
数据仓库的特点
集成
时变
非易失性
数据仓库的目的是支持决策过程。由于我们可以从数据仓库生成报告,因此它使信息易于访问。它通常包含源自事务数据的历史数据,但也可以包含来自其他来源的数据。数据仓库始终与事务数据分开。
我们有多个数据源,在这些数据源上应用了ETL流程,在这些流程中,我们从数据源中提取数据,然后根据一些规则进行转换,然后将数据加载到所需的目标位置,从而创建数据仓库。
数据挖掘
数据挖掘是指从大量数据中提取知识。数据源可以包括数据库,数据仓库,Web等。
知识发现是一个迭代序列:
数据清理–删除不一致的数据。
数据集成–将多个数据源合并为一个。
数据选择–仅选择要分析的相关数据。
数据转换–将数据转换为适当的形式以进行挖掘。
数据挖掘–提取数据模式的方法。
模式评估–确定数据中有趣的模式。
知识表示-使用可视化和知识表示技术。
可以挖掘什么样的数据?
数据库数据
数据仓库
事务数据
数据挖掘范围
趋势和行为的自动预测:数据挖掘可自动在大型数据库中查找预测信息的过程。例如:考虑一家营销公司。在这家公司中,数据挖掘使用过去的促销邮件来确定目标,以最大化回报。
自动发现以前未知的模式:数据挖掘遍历数据库并识别以前隐藏的模式。例如:在零售商店中,数据挖掘将遍历整个数据库并找到通常组合在一起的商品的模式。
以上是 数据仓库和数据挖掘 的全部内容, 来源链接: utcz.com/z/361245.html