网站大量收购闲置独家精品文档,联系QQ:2885784924

第四章 数据仓库中的粒度中.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 数据仓库中的粒度 SZ1516029_李航 摘要: 4.1 粗略估算 4.2 规划过程的输入 4.3 溢出存储器中的数据 4.4 确定粒度级别 4.5 一些反馈循环技巧 4.6 确定力度级别的几个例子 4.7 填充数据集市 4.8 小结 4.1 粗略估算 粒度:粒度是数据仓库中数据单元的细节程度或综合程度的级别。 粒度与细节程度的关系:粒度级别越高,细节程度越低,反之,粒度级别越低,细节程度越高。 粒度细节级别分为:早期细节级,当前细节级,轻度细节级和高度细节级。 确定数据仓库中数据的恰当粒度是数据仓库开发者需要面对的一个重要设计问题。如果数据仓库的粒度确定的合理,设计和实现中的其余方面就可以进行的非常舒畅;相反,如果粒度确定的不合理,就会使得所有方面都难以进行。 粒度的主要问题是使其处于合适的级别,粒度级别既不能太高也不能太低。 粗略的数据估计 确定适当的粒度级别所要做的第一件事就是对数据仓库中将来的数据进行数据行数和所要的DASD(直接存取存储设备)数进行粗略估算。这仅仅是数量级的估计。 图4-1给出了一个计算数据仓库占用空间的方法路径。第一步是确定数据仓库中将要创建的所有表。然后估计每张表的大小,估计一个上届一个下届足矣。 接下来,估计一年内表中可能的最少行数和最多行数。 估计一年内数据仓库中数据单元的数量后,重复用同样方法对五年内的数据进行估计。 图4-1 空间行计算 计算索引数据空间 粗略数据估计完成之后,还要计算一下索引数据占据的空间。确定每张表的关键字或数据元素的长度,并弄清楚是否原始表中的每条记录都存在关键字。 索引数据所占空间=索引数目 * 关键字长度 最终数据总量=索引数据占据的空间+粗略数据估算的空间 需要注意的是,对数据仓库大小的估计预测几乎总是偏低,而且,数据仓库的增长速率一本比预测的还要快。 4.2 规划过程的输入 估计出的行数和DASD数就成了规划过程的输入。进行估计时,结果只要达到数量级就行了,更精确的准确度只不过是浪费时间。如图4-2 4.3溢出存储器中的数据 对数据仓库大小估计的粗略估计完成后,需要根据数据仓库环境中将具有的总行数的多少,对比图4-3,采取不同的设计,开发以及存储方法。 对于五年期,总行数将大致变了一个数量级或更多。经推测,五年后可能出现如下因素: 1.在管理数据仓库中大量数据时,将有更多的专门的技术 2.硬件费用将会有所下降 3.将可以使用功能跟加强大的软件工具 4.最终用户将更加专业化 图4-3 将数据仓库环境中的总行数与本表进行对照 溢出存储器 数据仓库中数据正以IT专业人员前所未见的速率增长。历史数据与细节数据的结合造成了这种显著的增长速率。在数据仓库出现之前,“万亿字节”和“千万亿字节”这些字眼还只运用于理论中。 随着数据不断增长,经常使用的数据与不经常使用的数据出现了自然分化。不经常使用的数据,我们称它们为睡眠数据或不活跃数据。分离这部分数据,并将它们存储到另一种存储介质上去是有非常意义的。 数据仓库中经常使用的数据仍留在高性能的磁盘存储器中,而将不经常使用的数据转移到海量存储器或近线存储器中。 将数据存在海量备用存储器或近线存储器中比存储在磁盘存储器中要便宜的多,而且,数据存储在海量备用存储器或近线存储器中并不是说不能访问了。海量备用存储器和近线存储器中存储的数据与磁盘中存储的数据一样可以访问。这样做可以大大提高整个环境的性能。 为了能在整个系统范围内访问数据,并为了能将不同的数据存放在存储器的合适位置点上,要求能为海量备用存储器/近线存储器提供软件支持。如图4-4: 图4-4 使用海量溢出存储器要有相应的软件支持 有效的使用海量备用存储器/近线存储器至少需要具备三个软件组成部分: 监控仓库数据的使用 跨介质存储管理器 近线/海量备用存储器直接访问与分析 溢出存储器要正常发挥作用也至少需要前两个软件支持 存放不常用的数据的溢出存储器是数据仓库的一个重要组成部分,对粒度有很大影响。如果没有这种存储器,设计者必须将粒度级别调整到磁盘技术的容量和预算允许的水平。有了溢出存储器,设计者可以放手建立想要的低粒度级别。 为了提高性能,降低查询代价,强力建议数据体系结构设计人员要保证存储于海量备用存储器中的数据不被经常访问。 有几种方法保证不经常访问存储于海量备用存储器的数据。一种简单的方法是当数据达到一段时间(如24个月)才将它们存放到海量备用存储器中。另一种方法是将某些类型的数据存储在海量备用存储器中,而将其他类型的数据存储于磁盘存储器中。 4.4 确定粒度的级别 确定粒度的级别,有事需要一些常识和直觉。在很低的粒度级别上建立基于磁盘的数据仓库

文档评论(0)

daijun + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档