2013-第2次课-新一代数据库系统--数据仓库.ppt

2013-第2次课-新一代数据库系统--数据仓库.ppt

  1. 1、本文档共109页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2013-第2次课-新一代数据库系统--数据仓库

按时间维向上钻取 60 按时间维向下钻取 OLAP的分析方法(二)钻取(drill-down) 第2章 数据仓库 多维分析 OLAP的分析方法(三)旋转 第2章 数据仓库 多维分析 第2章 数据仓库 多维分析 多维分析方法总结 切片是在一部分维上选定值后,关心数据在剩余维上的数据度量。 钻取是改变维的层次,变换分析的粒度;Roll up是在某一维上将 低层次的细节数据概括到高层次的汇总数据;Drill down则相反, 它从汇总数据深入到细节数据进行观察。 旋转式改变维的方向,即在表格中重新安排维的位置(如行列互 换)。 主要内容 数据仓库基本概念 数据仓库体系结构 数据仓库元数据 数据仓库的数据模式 多维分析 高性能物理数据仓库设计 第2章 数据仓库 高性能物理数据仓库设计 在OLTP环境中,作业(任务)的特征是具有高度选择性 的查询。并且此查询通常不(应该)包含大量的复杂的全表扫 描和连接操作。与此相反,数据仓库和数据集市的查询通常包 含复杂的连接操作和扫描大量的数据,并且这些查询往往包含 重复的成分。例如,某个用户想查看各销售区域的收入。另一 个用户可能希望查看在所有区域中产品A的销售量在各区销售 收入中所占的比例。某个查询都包含扫描整个销售表格以分组 区域数据,并计算区域总量。 在这样的环境中数据并行化和非规格化是实行高性能计算 的主要技巧(技术)。当然索引也是必需考虑的问题。 第2章 数据仓库 高性能物理数据仓库设计 非规格化数据 非规格化数据仓库的两个主要优势: 1 能够提高多个数量级的查询响应时间; 因为大型的,长时间的表格扫描或复杂的连接可以被简单 地查找预先计算出来的结果所取代; 2 将使系统资源被更加有效地利用; 能够大量减少为获得某个特定查询的结果而需要处理的工 作量。 非规格化数据仓库一般方法:预聚集、列复制、预连接 第2章 数据仓库 高性能物理数据仓库设计 非规格化数据 非规格化数据的三种技巧 1 预聚集 将一个聚集函数(例如求和求平均)的结果存储以被后用 的方法称为预聚集;该方法在数据库中也经常使用,因为这些 聚集函数的计算往往需要扫描大量的记录,将他们计算一次后 就存储在数据库中以便后续使用是非常实际的方法。例如在税 务系统中经常将每月税收总计和平均存储在特定的表中。在数 据仓库中,一般将详细数据进行汇总。 第2章 数据仓库 高性能物理数据仓库设计 非规格化数据 非规格化数据的三种技巧 2 列复制 当用户经常进行连接操作时,为了较少连接的代价,将经常 连接的两个或者多个表合并。 第2章 数据仓库 高性能物理数据仓库设计 非规格化数据 非规格化数据的三种技巧 3 预连接 是列复制的极端情况。列复制只是将某个表的一列或者几 列复制到一个表中。预连接时将某个表中的所有列复制到一个 表中。就是说用指定的连接键来连接两个(多个)表格,并将 连接结果存储在一个表中。表扫描的代价显然要比表连接的代 价小。 第2章 数据仓库 高性能物理数据仓库设计 非规格化数据 非规格化数据的三种技巧 非规格化的代价: 增加了磁盘容量;非规格化本身需要大量的计算和合并代价; 增加了数据仓库的刷新代价。 对于那些查询需要非规格化需要在实际应用用加以验证和改 进,也就是说与应用环境有关。 第2章 数据仓库 高性能物理数据仓库设计 并行数据处理 数据库的并行处理集中反映在对事务的并行处理和数据的分布存储两个方面。事务的并行处理通过利用多处理器并行和单处理器多进程(线程)并行,大大提高数据库系统的处理能力。与此相适应,将数据库在多个磁盘上分布存储,可以利用多个处理器对磁盘数据进行并行处理,从而解决磁盘I/O瓶颈。 第2章 数据仓库 高性能物理数据仓库设计 类型划分 无共享型 共享内存型 共享磁盘型 共享内存 共享磁盘 磁盘 磁盘 磁盘 内存 内存 内存 CPU CPU CPU 磁盘 磁盘 磁盘 内存 内存 内存 网络 网络 网络 CPU CPU CPU CPU CPU CPU SN:Shared Nothing SM:Shared Memory SD:Shared Disk SM:处理器之间的通信通过共享内存,数据处理算法比较简单。 最大的问题是难以扩展 SD:消除了SM的问题,将所有处理器连接到磁盘上,磁盘 成为可扩展性的障碍。 SN:消除了SM、SD存在的问题,可扩展性最好,网络成为主要 瓶颈。 瓶颈 SM 内存 SD 磁盘 SN 网络 类型 第2章 数据仓库 高性能物理数据仓库设计 并行数据处理 多数文献将数据放置

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档