网站大量收购闲置独家精品文档,联系QQ:2885784924
  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库3课件

2.1 数据立方体 数据模型的构造是DW建设中最关键的一步,它决定了DW所能进行的分析的类型、分析的细致程度、分析的效率及响应时间。 主流的DW建模技术之一是维度建模,其基础就是多维数据模型 多维数据模型将数据看作数据立方体形式 2.1 数据立方体 1.由表到数据立方体 传统数据模型作为数据仓库的设计基础,在实际应用中存在许多缺点。 【例】对一个简单的数据模型,根据数据仓库建立实体时载入的数据量,考虑数据仓库中数据的一种三维透视。 2.1 数据立方体 -由表到数据立方体 代表供应商、客户、产品、发货实体的表中载入的数据量相对较少,而代表订单实体的表中却要载入大量的数据,因此需要一种不同的设计处理方式。 用来管理数据仓库中载入某个实体的大量数据的设计结构被称为“星型连接”。 2.1 数据立方体 -由表到数据立方体 在实际决策过程中,决策者往往希望能从多个角度观察某个指标或多个指标的值,并且找出这些指标之间的关系,我们将这些观察数据的角度称为维。可以说决策数据是多维数据,多维数据分析是决策的主要内容。 【例】一个比较有代表性的问题:需要知道东部地区和西部地区今年6月和去年6月在销售总额上的对比情况,并且销售额按10-20 万,20-30 万,30-40 万,40 万以上分组。 决策者所需的数据总是与一些统计指标、观察角度、不同级别的统计有关。 2.1 数据立方体 -由表到数据立方体 数据立方体允许以多维对数据建模和观察,它由维与事实定义。 维:观察数据的特定角度。每一个维都有一个表与之相关联,称为维表,用来进一步描述维。 多维数据模型通常围绕中心主题组织,该主题用事实表表示。 事实表:事实的名称或数字度量值以及每个相关维表的关键字。 2.1 数据立方体 -由表到数据立方体 通常认为数据立方体是三维几何结构,在数据仓库中,数据立方体是N 维(N-D)的。 考察一个2-D数据立方体(实际上是一张某电子公司的销售数据表)。特别观察公司在南京的所有分店每季度销售的商品情况。 2.1 数据立方体 -由表到数据立方体 再以三维角度观察销售数据,例如从时间,类型,地区观察数据。地区是上海、北京、南京。3-D数据如下表所示: 2.1 数据立方体 -由表到数据立方体 若从四维的角度观察销售数据,则再附加一维供应商。 观察4-D事物变得麻烦,可把4-D立方体看成3-D立方体的序列: 2.1 数据立方体 -由表到数据立方体 按此法继续下去,可把任意N-D数据立方体表示成(N-1)-D数据立方体序列。 数据立方体是对多维数据存储的一种比喻,这种数据的实际物理存储不同于它的逻辑表示。重要的是数据立方体是N维的,而不限于3-D。 2.2 多维数据库模式 多维数据模型是以星型模式、雪花模式或事实星座模式形式存在的。 1.星型模式 由一个包含主题的事实表和多个包含事实的非正规化描述的维度表构成。 事实表包含以下字段,描述的是某个客户、某天的销售量: tran_date,customer_no,sales_volume 那么可以得到两个维度表: 一个是日期维度,它和事实表的tran_date关联,可以是这样的粒度:年——月——日,也可以是年——季度——月——日; 一个是客户维度,它和事实表的customer_no关联,还会有一个存放客户资料的表,客户资料有各种属性 可以理解为维度是通过对事实表做不同层次的group?by分组统计。 本例中,日期、客户编号则是最底层的分组,往上日期维度可以分组到月、季度、年;客户维度可以汇总到国家、省份、市等。 在星形模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。 星型模式位于星形中心的实体是指标实体,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。每个指标实体代表一系列相关事实,完成一项指定的功能。位于星形图星角上的实体是维度实体,其作用是限制用户的查询结果,将数据过滤使得从指标实体查询返回较少的行,从而缩小访问范围。每个维表有自己的属性,维表和事实表通过关键字相关联。星形模式虽然是一个关系模型,但是它不是一个规范化的模型。 使用星形模式主要原因:提高查询的效率。 采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高。 同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表作连接时其速度较快,便于用户理解。 对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。 缺点:星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地区维度表中,存在国家 A 省

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档