- 1、本文档共57页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 数据仓库的数据存储与处理精要
数据仓库与数据挖掘 第2章 数据仓库的数据 存储与处理 连接索引举例: * ○ 检测并解决数据值的冲突 不同的数据表示,不同的度量等等。 例如: 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的(如价格的单位:元、千元)。 1)数据集成(续) * 2)数据变换 平滑:去除数据中的噪声。如分箱、聚类、回归。 聚集:对数据进行聚集和汇总,数据立方体的构建。 数据概化:沿概念分层向上汇总。 规范化:将数据按比例缩放,使之落入一个小的特定区间。 最小-最大规范化 z-score规范化 小数定标规范化 属性构造 通过现有属性构造新的属性,并添加到属性集中。 * 数据变换——规范化 maxA,minA :属性A的最大与最小值 new_ maxA,new_minA:属性A变换后区间的最大与最小值 ※ 最小-最大规范化:对原始数据进行线性变换,使得数据落在new_ maxA,new_minA区间内。 例:(一般映射到[0,1]区间)工资在700~12000之间,则工资7830规范化后为: V’=(7830-700)/(12000-700)*(1-0)+0=0.7430 * 数据变换——规范化 ※ z-score规范化:基于属性A的平均值和标准差规范化。 ※ 小数定标规范化:通过移动属性A的小数点位置进行规范化。 其中j是使得max(|v‘|)1的最小整数。 * 3)数据归约 数据立方体聚集 维归约 数据压缩 数值归约 离散化和概念分层产生 数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间。 数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果。 数据归约策略: * (1) 数据立方体聚集 最底层的方体对应于基本方体 基本方体对应于感兴趣的实体 (基本事实表) 在数据立方体中存在着不同级别的汇总 数据立方体可以看成方体的格 每个较高层次的抽象将进一步减少结果数据 数据立方体提供了对预计算的汇总数据的快速访问 使用与给定任务相关的最小方体(基本方体,注意数据立方体的晶格结构) 在可能的情况下,对于汇总数据的查询应当使用数据立方体 (item) (city) (year) (city, item) (city, year) (item, year) (city, item, year) * (2)维归约 通过删除不相干的属性(或维)减少数据量 属性子集选择方法 目标:找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布。 好处:减少出现在发现模式上的属性的数目,使得模式更易于理解。 启发式的(探索性的\贪心算法)方法 逐步向前选择:从空集开始,逐步添加 逐步向后删除:从整个属性集开始,逐步删除 向前选择和向后删除相结合 判定归纳树:如ID3和C4.5算法 * (3)数据压缩 有损压缩 VS. 无损压缩 字符串压缩 有广泛的理论基础和精妙的算法 通常是无损压缩 在解压缩前对字符串的操作非常有限 音频/视频压缩 通常是有损压缩,压缩精度可以递进选择 有时可以在不解压整体数据的情况下,重构某个片断 两种有损数据压缩方法:小波变换和主要成分分析 * 2. 数据索引:位图索引和连接索引 2.3.6 数据加载和索引(Load/Index) 1. 数据加载:将数据写入数据仓库或数据集市的过程。 刷新方式:在定期间隔对目标数据进行批量重写-全部更新加载。 更新方式:只将源数据中的数据改变写进数据仓库的方法,但不覆盖或删除以前的记录而是通过时间戳来区分-部分更新加载。 SQL命令,例如:INSERT或UPDATE 数据仓库供应商或第三方提供专门的加载工具 由数据仓库管理员编写自定义程序 3.手段 传统索引:将给定列上的值映射到具有该值的行表上。 连接索引:登记来自两个关系数据库的可连接行。 例如:R(RID,A)和S(B,SID)在属性A和B上连接,其连接索引为(RID,SID)。 * 2.4 多维数据模型 导出数据的特征: 1.详细数据和聚集数据并存。 2. 为特定用户和特定应用定制的数据,并为之提供快速响应。 3. 数据模型为星型模式。 EDW、ODS 选择、格式化、聚集 数据集市 调和数据 导出数据 导出数据层的存储方式: 1. 存储在多维数据库中,即按照多维数组方式存储,对应MOLAP。 2. 存储在关系数据库中,采用星型模式及其变体,对应ROLAP。 * 2.4.1 多维数据模型及其相关概念 1、多维数据模型的相关概念 维:是人们观察数据的特定角度,是考虑问题时的一类属性,此类属性的集合构成一个维度。 (1)从时间角度观察产品的销售,则时间是一个维(时间维)。 (2)从地理分布角度观察产品的销售,则地理
您可能关注的文档
- 第2章 传感器的一般特性精要.ppt
- 第2章 化工过程及参数精要.ppt
- 人教版八年级地理上册_4.3工业课件(共34张PPT)要点.ppt
- 人教版八年级历史与社会上册第四单元第二课第三节民族和睦与对外交流(共23张PPT)要点.ppt
- 人教版八年级思品8做友好往来的使者要点.ppt
- 人教版八年级数学下册《函数的图像》(第二课时)要点.ppt
- 第2章 制冷方法精要.ppt
- 人教版八年级物理《第三章透镜及其应用》知识点+习题教师版要点.docx
- 第2章 前厅部概述精要.pptx
- 人教版八年级物理-质量和密度-知识点+习题(含答案)打印版要点.docx
- 贵州省遵义市企业人力资源管理师之二级人力资源管理师考试完整题库精品(历年真题).docx
- 贵州省黔东南苗族侗族自治州企业人力资源管理师之二级人力资源管理师考试精品题库及答案下载.docx
- 贵州省黔东南苗族侗族自治州企业人力资源管理师之二级人力资源管理师考试优选题库【完整版】.docx
- 贵州省遵义市企业人力资源管理师之二级人力资源管理师考试真题(能力提升).docx
- 贵州省黔西南布依族苗族自治州企业人力资源管理师之二级人力资源管理师考试精品题库及答案(有一套).docx
- 贵州省遵义市企业人力资源管理师之二级人力资源管理师考试题库大全精品(历年真题).docx
- 贵州省安顺地区企业人力资源管理师之二级人力资源管理师考试真题题库及参考答案(典型题).docx
- 贵州省遵义市企业人力资源管理师之四级人力资源管理师考试精选题库(考点提分).docx
- 贵州省遵义市企业人力资源管理师之一级人力资源管理师考试王牌题库(易错题).docx
- 贵州省铜仁地区企业人力资源管理师之一级人力资源管理师考试题库大全附答案【综合题】.docx
文档评论(0)