- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
确定数据的存储计划
第3章 数据仓库的模型设计与数据仓库建立 主要内容 1 数据仓库分析与设计 2 数据仓库建立流程 1 数据仓库分析与设计 1.1 需求分析 1.2 概念模型设计 1.3 逻辑模型设计 1.4 物理模型设计 1.5 数据仓库的索引技术 1.1 需求分析 1.确定主题域 2.支持决策的数据来源 3.数据仓库的成功标准和关键性能指标 4.数据量与更新频率 1.确定主题域 (1)明确对于决策分析最有价值的主题领域有哪些?如一个商业企业确定客户和商品为主题。而商品对商场更为重要。 (2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些? (3)制定决策的商业分区是什么? (4)不同地区需要哪些信息来制定决策? (5)对哪个区域提供特定的商品和服务? 2.支持决策的数据来源 (1)哪些源数据(操作型)与商品主题有关? (2)在已有报表和在线查询中得到什么样的信息? (3)提供决策支持的细节程度是怎样的? 3.数据仓库的成功标准和关键性能指标 (1)衡量数据仓库成功的标准是什么? (2)哪些关键的性能指标?如何监控? (3)对数据仓库的期望是什么? (4)对数据仓库的预期用途有哪些? (5)对计划中的数据仓库的考虑要点是什么? 4.数据量与更新频率 (1)数据仓库的总数据量有多少? (2)决策支持所需的数据更新频率是多少?时间间隔是多长? (3)每种决策分析与不同时间的标准对比如何? (4)数据仓库中的信息需求的时间界限是什么? 通过需求分析,需要的数据包括: 1.数据源 (1)可用的数据源 (2)数据源的数据结构 (3)数据源的位置 (4)数据源的计算机环境 (5)数据抽取过程 (6)可用的历史数据 2.数据转换 数据仓库中的数据是为决策分析服务,而源系统的数据为业务处理服务。 需要决定如何正确地将这些源数据转换成适合数据仓库存储的数据。 3.数据存储 数据仓库所需要的数据的详细程度,包括足够的关于存储需求的信息,估计数据仓库需要多少历史和存档数据。 4.决策分析 (1)向下层钻取分析 (2)向上层钻取分析 (3)横向钻取分析 (4)切片分析 (5)特别查询报表 1.2 概念模型设计 把用户需求抽象为信息结构,就是概念模型。 概念模型常用的表示方法是实体-关系法,即E-R图 1.2概念模型设计 概念模型的特点是: (1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。 (2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。 (3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。 (4)易于向数据仓库的数据模型(星型模型)转换。 例子 有两个主题:商品和客户,主题也是实体。 商品有如下属性组: 商品的固有信息(商品号、商品名、类别、价格等); 商品库存信息(商品号、库房号、库存量、日期等); 商品销售信息(商品号、客户号、销售量等); 客户有如下属性组: 客户固有信息(客户号、客户名、住址、电话等); 客户购物信息(客户号、商品号、售价、购买量等)。 商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。 1.3逻辑模型设计 主要工作为: (1)主题域进行概念模型(E—R图)到逻辑模型(星型模型)的转换 (2)粒度层次划分 (3)关系模式定义 (4)定义记录系统 1、主题域进行概念模型到逻辑模型的转换。 星型模型的设计步骤如下: (1)确定决策分析需求 决策需求是建立多维数据模型的依据。 (2)从需求中识别出事实 选择或设计反映决策主题业务的表,如在“商品”主题中,以“销售业务”作为事实表。 (3)确定维 确定影响事实的各种因素,对销售业务的维包括商店,地区,部门,城市,时间,商品等,如图2所示。 从的E—R图转换成星型模型实例说明 (1)业务数据的E-R图 (2)E-R图向多维表的转换 该问题的多维表模型中,商品维包括部门、商品和商品大类,地点维包括地区和商店,忽略存货,而只注意销售事实。在E-R图中不出现的时间,在多维模型中增加时间维。 在多维模型中,实体与维之间建立映射关系,联系多个实体的实体就成为事实,此处销售实体作为事实,其他实体作为维。然后用维关键字将它转换为星型模型,如图4.5所示。 在各维中,只有部门,商品类,地区,商店的编号没有具体的说明。 为了打印报表将增加这些编号的名称说明,即部门名、商店名等,在维表中增加这些说明,即修改该星型模型 2、粒度层次划分 所谓粒度是指数据仓库中数据单元的详细程度和级别。 数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,层次级别就越
文档评论(0)