数据仓库模型设计解读.ppt

  1. 1、本文档共91页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.4.5 数据仓库的物理模型设计 二、确定索引策略 在数据仓库中由于数据量很大,需要对数据的存取路径进行仔细设计和选择,建立专用的复杂的索引,以获得最高的存取效率。 在数据仓库中的数据是不常更新的,即每个数据存储是稳定的。索引一旦建立几乎不需要再维护。 下面介绍几种索引技术。 1.4 数据仓库模型设计 第一章 数据仓库原理 第一章 数据仓库原理 1.B—Tree索引 传统的数据库采用B-Tree索引,它是一个高效的索引,如图所示。 1.4.5 数据仓库的物理模型设计 二、确定索引策略 1.4 数据仓库模型设计 1.B—Tree索引 1.4.5 数据仓库的物理模型设计 二、确定索引策略 B—Tree就具有一定的局限性,它存在以下的缺点: (1)B—Tree通常要求被索引的字段具有很好的选择性。 (2) B—Tree索引对于从大表中选择少数的几个数据记录的查询工作是非常适合。 (3)B—Tree的快速索引性能实际上是通过较大的代价换取的。 1.4 数据仓库模型设计 第一章 数据仓库原理 2.位索引技术 1.4.5 数据仓库的物理模型设计 二、确定索引策略 Sybase公司推出的数据仓库Sybase IQ,采用位索引技术,它在处理复杂的查询时,比传统数据库索引B-Tree有了突破。 位索引技术在存储数据的方式上与传统的关系数据库有所不同,它不是以“行记录”而是按“列”为单位存储数据,即对数据进行垂直分割。对于每一个记录的字段满足查询条件的真假值用1或0的方式表示,或者用字段中不同取值来表示。 1.4 数据仓库模型设计 第一章 数据仓库原理 2.位索引技术 1.4.5 数据仓库的物理模型设计 二、确定索引策略 一般DSS查询往往仅涉及大量数据记录中的少数列,因而不需要访问原始数据就能快速获得查询结果。显然,利用字段的不同取值也能快速进行数据聚类、分组、求最大值、求最小值及求平均值等。 对于高度可选择的数(称高基数),如姓名或地址等可能有数万个选择值,用(1,0)真假值来索引是不合适的。 1.4 数据仓库模型设计 第一章 数据仓库原理 2.位索引技术 1.4.5 数据仓库的物理模型设计 二、确定索引策略 例:检索“美国加州有多少男性未申请保险?” 项目 性别 保险 州 1 M Y MA 2 M N CA 3 F Y IL 4 M N CA 男 未保险 加州 1 0 0 1 1 1 0 0 0 1 1 1 有两个满足条件的记录 1.4 数据仓库模型设计 第一章 数据仓库原理 2.位索引技术 1.4.5 数据仓库的物理模型设计 二、确定索引策略 B-Tree技术 位索引技术 索引技术特点对比 1)按行存储数据 2)针对具体查询建立驱动的索引机制 3)存储被索引的字段数据 4)一列允许一个索引 5)适合高基数字段 1)按列存储数据 2)针对实际特征建索引 3)不存储实际索引字段内容 4)一列允许多个索引 5)数据压缩技术和位操作技术 6)适合低基数字段 速度比较 位索引技术比B-Tree技术能提高响应速度10~100倍。 数据仓库的适用性 1)适合高基数字段 2)增加构造和维护索引代价 3)不适合复杂查询 1)适合低基数字段 2)维护索引工作量小 3)适合复杂查询 1.4 数据仓库模型设计 第一章 数据仓库原理 1.4.5 数据仓库的物理模型设计 二、确定索引策略 3.标识技术 使用标准的数据库技术来储存数据仓库是非常昂贵的。较好的替代方法是用基于标识的技术来储存数据仓库。这种技术根本不同于关系数据库技术。 1.4 数据仓库模型设计 第一章 数据仓库原理 1.4.5 数据仓库的物理模型设计 二、确定索引策略 3.标识技术 姓名 籍贯 职称 年龄 姓名 籍贯 职称 年龄 陈文东 江西 教授 56 赵玉 吉林 讲师 32 何玉辉 河北 讲师 32 黄小斌 江苏 讲师 28 李宝 湖南 副教授 37 赛英花 山东 副教授 32 施东 江苏 讲师 28 彭宏 江西 讲师 25 曹文杰 湖南 副教授 36 廖宇宙 湖南 教授 42 例:有如下样本数据 1.4 数据仓库模型设计 第一章 数据仓库原理 1.4.5 数据仓库的物理模型设计 二、确定索引策略 3.标识技术 假设可以为此数据库中的每个实体创建一个标识,则有如下标识: 姓名标识 籍贯标识 职称标识 年龄标识 陈文东-01 江西-01 教授-01 25-01 何玉辉-02 河北-02 副教授-02 28-02 李宝-03 湖南-03 讲师-03 32-03 施东-04 江苏-04 36-04 曹

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档