- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一、数据仓库与OLAP
1.数据仓库的4个基本特征:
数据仓库的数据是面向主题的;
数据仓库的数据是集成的;
数据仓库的数据是时变的;
数据仓库的数据是非易失的。
2.通常,多维数据模型用于数据仓库和数据集市的设计。这种模型采用星形模式、雪花模式或事实星座模式。多维数据模型的核心是数据方。数据方由大量事实(或度量)和许多维组成。维是一个组织想要记录的实体或透视,是自然分层的。
3.概念分层将属性或维的值组织成渐进的抽象层。概念分层对于多抽象层上的挖掘是有用的。
4.三层数据仓库结构模型
“数据仓库的结构是什么样的?”通常,数据仓库采用三层结构,如图2.12 所示。
底层是数据仓库服务器,它几乎总是一个关系数据库系统。。
中间层是OLAP 服务器,其典型的实现或者是(1)关系OLAP(ROLAP)模型,即扩充的关系DBMS,它将多维数据上的操作映射为标准的关系操作;或者是(2)多维OLAP(MOLAP)模型,即特殊的服务器,它直接实现多维数据和操作。
顶层是客户,它包括查询和报告工具、分析工具、和/或数据挖掘工具(例如,趋势分析、预测等)。
5.OLTP系统和OLAP系统的比较
6.OLAP 服务器可以是关系OLAP(ROLAP),多维OLAP(MOLAP),或混合OLAP(HOLAP)。ROLAP
服务器使用扩充的关系DBMS,将多维数据上的OLAP 操作映射成标准的关系操作。MOLAP 服务
器直接将多维数据视图映射到数组结构。HOLAP 是ROLAP 和MOLAP 的结合。例如,它可以对历
史数据使用ROLAP,而将频繁访问的数据放在一个分离的MOLAP 存储中。
7.典型的OLAP操作:上卷、下钻、切片、切块、旋转。
8.多维数据库模型:
星型模式
雪花模式
事实星座(星系模式)
二、数据预处理
1.数据预处理对于建立数据仓库和数据挖掘都是一个重要的问题,因为现实世界中的数据多半是不完整的、有噪音的和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据归约。
2.数据清理例程可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性。
3.数据集成将来自不同数据源的数据整合成一致的数据存储。元数据、相关分析、数据冲突检测和语义异种性的解决都有助于数据集成。
4.数据变换例程将数据变换成适于挖掘的形式。例如,属性数据可以规范化,使得它们可以落入
小区间,如0.0 到1.0。
5.数据归约技术,如数据方聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的
归约表示,而使得信息内容的损失最小。
6.数据空缺处理方法
直接忽略法
人工填补法
自动填补法(填入通用的常数、
填入平均值、
填入用推论法求出较可能的值贝叶斯、决策树)
7.噪声的处理方法
结合计算机侦测与人工检视
聚类:孤立点可以被聚类检测出来
数据平滑处理
回归分析法 :将数据套入回归函数以消除噪声
分箱法:将数据排序并切割成数个箱子用平均值、中位数或边界值来取代箱子中的每一笔数据以消除噪声
8.分箱法:等宽分割法、等深分割法、等距分割法
9.分箱数据的平缓处理:平均值消除噪声、以中位数消除噪声、以边界值消除噪声
10.数据变换
平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。
聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。
数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以泛化为较高层的概念,如city 或country。类似地,数值属性,如age,可以映射到较高层概念,如young, middle-age 和senior。
规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。
属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。
11.数据规范化的方法(要掌握计算方法)
最大-最小规范化
Z-分数规范化 (Z-score)
小数定标规范化
12.数值归约技术
回归和对数线性模型
直方图(划分规则:等宽、等深、V-最优、MaxDiff)
聚类
选样
简单选择n 个样本,不回放(SRSWOR)
简单选择n 个样本,回放(SRSWR)
聚类选样
分层选样
13.数值数据的概念分层自动产生可能涉及诸如分箱、直方图分析、聚类分析、基于熵的离散化和
根据自然划分分段。对于分类数据,概念分层可以根据定义分层的属性的不同值个数自动产生。
三、特征化和比较
1.数据挖掘可以分成描述式数据挖掘和预测式数据挖掘。概念描述是描述式数据挖掘的最基本形式。它以简洁汇总的形式描述给定的任务相关数据集,提供数据的有趣的一般特性。
2.概念(或类)描述由特征和比较(区分)组成。前者汇总并描
文档评论(0)