数据挖掘复习提纲.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一、数据仓库与OLAP 1.数据仓库的4个基本特征: 数据仓库的数据是面向主题的; 数据仓库的数据是集成的; 数据仓库的数据是时变的; 数据仓库的数据是非易失的。 2.通常,多维数据模型用于数据仓库和数据集市的设计。这种模型采用星形模式、雪花模式或事实星座模式。多维数据模型的核心是数据方。数据方由大量事实(或度量)和许多维组成。维是一个组织想要记录的实体或透视,是自然分层的。 3.概念分层将属性或维的值组织成渐进的抽象层。概念分层对于多抽象层上的挖掘是有用的。 4.三层数据仓库结构模型 “数据仓库的结构是什么样的?”通常,数据仓库采用三层结构,如图2.12 所示。 底层是数据仓库服务器,它几乎总是一个关系数据库系统。。 中间层是OLAP 服务器,其典型的实现或者是(1)关系OLAP(ROLAP)模型,即扩充的关系DBMS,它将多维数据上的操作映射为标准的关系操作;或者是(2)多维OLAP(MOLAP)模型,即特殊的服务器,它直接实现多维数据和操作。 顶层是客户,它包括查询和报告工具、分析工具、和/或数据挖掘工具(例如,趋势分析、预测等)。 5.OLTP系统和OLAP系统的比较 6.OLAP 服务器可以是关系OLAP(ROLAP),多维OLAP(MOLAP),或混合OLAP(HOLAP)。ROLAP 服务器使用扩充的关系DBMS,将多维数据上的OLAP 操作映射成标准的关系操作。MOLAP 服务 器直接将多维数据视图映射到数组结构。HOLAP 是ROLAP 和MOLAP 的结合。例如,它可以对历 史数据使用ROLAP,而将频繁访问的数据放在一个分离的MOLAP 存储中。 7.典型的OLAP操作:上卷、下钻、切片、切块、旋转。 8.多维数据库模型: 星型模式 雪花模式 事实星座(星系模式) 二、数据预处理 1.数据预处理对于建立数据仓库和数据挖掘都是一个重要的问题,因为现实世界中的数据多半是不完整的、有噪音的和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据归约。 2.数据清理例程可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性。 3.数据集成将来自不同数据源的数据整合成一致的数据存储。元数据、相关分析、数据冲突检测和语义异种性的解决都有助于数据集成。 4.数据变换例程将数据变换成适于挖掘的形式。例如,属性数据可以规范化,使得它们可以落入 小区间,如0.0 到1.0。 5.数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的 归约表示,而使得信息内容的损失最小。 6.数据空缺处理方法 直接忽略法 人工填补法 自动填补法(填入通用的常数、 填入平均值、 填入用推论法求出较可能的值贝叶斯、决策树) 7.噪声的处理方法 结合计算机侦测与人工检视 聚类:孤立点可以被聚类检测出来 数据平滑处理 回归分析法 :将数据套入回归函数以消除噪声 分箱法:将数据排序并切割成数个箱子用平均值、中位数或边界值来取代箱子中的每一笔数据以消除噪声 8.分箱法:等宽分割法、等深分割法、等距分割法 9.分箱数据的平缓处理:平均值消除噪声、以中位数消除噪声、以边界值消除噪声 10.数据变换 平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。 聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。 数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以泛化为较高层的概念,如city 或country。类似地,数值属性,如age,可以映射到较高层概念,如young, middle-age 和senior。 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。 11.数据规范化的方法(要掌握计算方法) 最大-最小规范化 Z-分数规范化 (Z-score) 小数定标规范化 12.数值归约技术 回归和对数线性模型 直方图(划分规则:等宽、等深、V-最优、MaxDiff) 聚类 选样 简单选择n 个样本,不回放(SRSWOR) 简单选择n 个样本,回放(SRSWR) 聚类选样 分层选样 13.数值数据的概念分层自动产生可能涉及诸如分箱、直方图分析、聚类分析、基于熵的离散化和 根据自然划分分段。对于分类数据,概念分层可以根据定义分层的属性的不同值个数自动产生。 三、特征化和比较 1.数据挖掘可以分成描述式数据挖掘和预测式数据挖掘。概念描述是描述式数据挖掘的最基本形式。它以简洁汇总的形式描述给定的任务相关数据集,提供数据的有趣的一般特性。 2.概念(或类)描述由特征和比较(区分)组成。前者汇总并描

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档