数据仓库和数据挖掘 2-2.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库和数据挖掘 2-2

第二章 数据仓库原理;第二章 数据仓库原理; 数据仓库中的数据组织 粒度 分区 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加; 数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加;2.6 数据仓库中的数据组织;2.6 数据仓库中的数据组织; ;数据仓库中的数据存在着不同的综合级别 早期细节级 一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。 为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储。;数据仓库中的数据存在着不同的综合级别 当前细节级 来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进行存储。 这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。 当前细节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数据。;数据仓库中的数据存在着不同的综合级别 轻度综合级 为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综合。 这一设定的时间段参数又称为“粒度”。 以较小的粒度生成的综合数据,称为“轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率。;数据仓库中的数据存在着不同的综合级别 高度综合级 以较长的时间段,即较大的粒度,对当前细节级的数据进行综合而形成的结果,称为“高度综合级数据”。 高度综合级的数据内容十分精练,可以认为是一种“准决策数据”。 这里,“高度”和“轻度”只是一种相对的概念没有绝对的界限。; ; 数据仓库中的数据组织 粒度 分割 维度 元数据 数据仓库的数据组织形式 数据仓库的数据追加;粒度 对数据仓库中的数据综合程度高低的一个度量。 例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。 粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。 ; 粒度 ; 粒度 ; ;粒度分为两种形式: 样本数据库 在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。 样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。 样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。 ; ; 数据仓库中的数据组织 粒度 分区 维度 数据仓库的数据组织形式 数据仓库的数据追加; 分区 数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。 在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的灵活性。 恰当进行分区的好处: 数据装载、数据访问、数据存档、 数据删除、数据监控、数据存储、 当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区。 ;分区; 分区 有多种数据分区的标准: 时间 业务范围 地理位置 组织单位 所有上述标准 数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部分。; 分区 人寿保险公司选择时间和保险种类,将数据分区为以下物理单元: 2000年健康索赔 2001年健康索赔 2002年健康索赔 1999年人寿保险索赔 2000年人寿保险索赔 2001年人寿保险索赔 2002年人寿保险索赔 2000年意外伤亡索赔 2001年意外伤亡索赔 2002年意外伤亡索赔; 分区 数据分区优点: 提高系统性能 “1996年家电类商品销售的季节分布如何?” “每年的第一季度商品销售在各类商品上的分布情况是怎样的?” ? 提高灵活性 修改数据定义容易 不同年份的险种的定义描述是相互独立 ; 数据仓库中的数据组织 粒度 分区 维度 数据仓库的数据组织形式 数据仓库的数据追加;维度 管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道

文档评论(0)

f8r9t5c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档