第4章 数据仓库的设计.ppt

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 数据仓库的设计

第四章 数据仓库设计 东北财经大学电子商务学院 第四章 数据仓库设计 4.1数据仓库设计的三级数据模型 4.1数据仓库设计的三级数据模型 4.1数据仓库设计的三级数据模型 4.2数据仓库的设计方法和步骤 4、区分优先级 4.5 逻辑模型设计 四、维度建模 维度建模是一种针对多维结构数据的建模技术,是数据仓库逻辑模型设计的常用建模工具。 维度建模是根据业务分析主题的要求,使用事实、维度、层次,从多个度量角度对业务活动进行建模,建出的多维数据模型由事实表和维度表组成,其中事实表中包含的是一些度量信息,维度表中包含的是关于度量的描述性信息。 1、选择数据仓库的多维数据模型 (1)星型模型 星型模型是最常见的多维数据模型,由一个事实表和一组维度表组成。每个维表都通过主键与事实表关联,维表的主键是事实表的外键。查询工作可以从分析维度表的数据开始,借助于维度关键字,很方便地连接到事实表,因此星型模型具有很好的检索效率,可以较好地为用户提供查询分析服务。 事实表 维度表 维度表 维度表 维度表 维度表 (2)雪花模型 雪花模型是星型模型的一种扩展形式,它在事实表和维度表的基础上增加了“详细类别表”,用于对维度表进行描述。在星型模型中,事实表的规范化程度是比较高的,而维度表的数据冗余程度则未加限制。在雪花模型中引入详细类别表的目的就是为了将维度表的数据进一步分解,以提高数据模型的规范化程度。因此,雪花模型具有较少的数据冗余,易于维护,节省了存储空间,具有较高的灵活性。但是由于由于执行查询需要更多的连接操作,因此会降低系统的性能。 事实表 维度表 维度表 维度表 维度表 维度表 详细类别表表 销售事实表 顾客ID 员工ID 供应商ID 连锁店ID 产品ID 时间ID 销售量 销售额 销售成本 销售利润 时间维度表 时间ID 年份 季度 月份 日 顾客维度表 顾客ID 顾客姓名 顾客性别 顾客地址 供应商维度表 供应商ID 供应商姓名 供应商地址 员工维度表 员工ID 员工姓名 商品维度表 商品ID 商品分类ID 商品名称 品牌 商品类别表 商品分类ID 商品大类 商品中类 商品小类 连锁店维度表 连锁店ID 区域ID 连锁店名称 区域维度表 区域ID 区域名称 城市 县区 (3)共享维度模型 复杂的应用可能需要多个事实表共享维表,这种模式就是共享维表星型模型。这种模型往往应用于数据关系更复杂的场合。这种在实践中应用较少 。 事实表 维度表 维度表 维度表 维度表 维度表 事实表 维度表 五、定义记录系统 记录系统的定义就是指明数据仓库中关系表的各个字段来源于哪个业务数据库的哪张表的哪个字段。由于数据仓库的数据来源于多个已存在的操作型系统或外部系统,所以可能存在数据的不一致,要求选择最完整、最及时、最准确、最接近外部实体源的数据作为记录系统。 单价 销售信息表 销售数据库 销售价格 商品 数量 销售信息表 销售数据库 销售数量 商品 日期 销售信息表 销售数据库 销售日期 商品 顾客号 顾客信息表 销售数据库 顾客号 商品 日期 采购信息表 采购数据库 采购日期 商品 单价 采购信息表 采购数据库 采购价格 商品 供应商名 采购信息表 采购数据库 供应商名 商品 供应商号 采购信息表 采购数据库 供应商号 商品 商品名 商品信息表 库存数据库 商品名 商品 商品号 商品信息表 库存数据库 商品号 商品 源属性字段 源表名 源数据库 属性字段 主题名 超市数据采集记录系统定义示例 4.6 物理模型设计 物理模型设计的主要任务是确定数据的存储结构、确定数据的存储策略和确定数据的索引策略。 一、确定数据的存储结构 RAID(Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)是一种常用的数据存储结构,它是一种使用多磁盘驱动器来存储数据的数据存储系统。RAID可以支持数据仓库系统进行大量的并行工作,还可以从任何一个磁盘故障中恢复过来。 RAID用到以下4种技术: (1)磁盘分段:通过某种算法按扇区或字节将数据分布在多个磁盘上。 (2)磁盘镜像:使用附在同一控制器上的两个驱动器。 (3)磁盘复制:其中每个驱动器都有自己的控制器。 (4)奇偶性检验:在数据中额外加入一位校验码,以保证该信息的正确传递。 RAID分成0~5级,另外还有0级与1级相结合派生出来的RAID 0+1级。其中使用较多的是RAID 0、1、3、5和0+1级 1、RAID级别0 RAID级别0采用磁盘分段技术。在下图中由4个磁盘构成阵列,数据将被分块,然后按照顺序存放在各个磁盘上,例如数据块存放在磁盘1,数据块2存放在磁盘2,以此类推。RAID级别0结构读写数据时是一个同步过程,例如读取数据块1、2、3和4可以

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档