- 1、本文档共42页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 数据仓库的设计 ◆数据仓库与传统数据库设计方法的区别 ◆数据仓库的三级模型 ◆提高数据仓库性能的各种技术 ◆数据仓库的设计方法和步骤 对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中 。 1、分析主题域 数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的。从得出的所有主题中选择首先要实施的主题域。 在“商场”实例中,通过“商品”主题可以较全面的了解商场的经营状况。因此可以首先选择“商品”主题进行实施。 2、 粒度层次划分 粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据仓库的粒度划分,可以通过估算数据的总行数来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。 “商场”数据仓库中,一个会员制的商场一般可以经营上千种商品,考虑到商品的销售数据量最大,对商品的销售分析主要是:进行销售统计和销售趋势分析。 最好采用多重粒度,如某种商品的周统计销售数据、某类商品的月统计数据、季统计数据等等 * * 2.1 数据仓库设计方法概述 一、数据仓库设计与数据库系统设计区别 ◆面向的处理类型不同 DB:操作型数据环境,面向具体应用 DW:分析型环境,面向分析,一般开发是从最基本的主题开始,不断发展新的主题,完善已有的主题。 ◆面向的需求不同 DB:有较确定的应用需求,有比较确切的信息流 DW:需求灵活,没有固定的模式,用户甚至不能清楚需求,不可能从用户出发来进行数据仓库设计。 ◆系统设计目标不同 DB:事务处理性能(主要是事务处理响应时间)是主要目标 DW:建立一个全局的数据环境,保证数据的四个基本特征,数据全局一致性,实现对数据的全局管理和控制 ◆数据来源或系统的输入不同 DB:通常来自组织外部,主要考虑如何将获得的数据用适当的方式存储、如何对对数据进行联机的查询更新操作,保证数据安全可靠。 DW:主要来自已存在的系统内部,主要考虑如何从现存的数据源中得到完整一致的数据,如何对数据进行转换、综合,如何提高数据分析的效率 ◆系统设计的方法和步骤不同 DB:业务过程和规则比较规范(如库存管理、采购业务管理等),有独立的收集需求和分析需求的阶段。一般采用生命周期法。 DW:面向的管理人员一般不能对分析的需求作出规范说明,需求分析贯穿整个过程。 数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成: 数据仓库规划分析阶段 数据仓库设计实施阶段 数据仓库的使用维护阶段 这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。 二、数据仓库的开发方法及步骤 2.2 数据仓库设计的三级模型 数据模型: 模型是对现实世界进行抽象的工具。在信息管理中需 要将现实世界的事物及其有关特征转换为信息世界的 数据才能对信息进行处理与管理,这就需要依靠数据 模型作为这种转换的桥梁。这种转换一般需要经历从 现实到概念模型,从概念模型到逻辑模型,从逻辑模 型到物理模型的转换过程。 数据库 异质 总体 整体 间联系 顾客 与产品 表文件 同质总体 整体 顾客 记录 实体 个体 张三 列(字段、数据项) 属性 特性 信用 计算机世界 逻辑世界 概念世界 现实世界 DW数据模型与OLTP数据模型区别: (1)不包含纯操作型数据 (2)扩充了主键结构,增加了时间属性 (3)增加大量的导出数据 一、概念模型 表示方法:实体-关系模型(E-R)模型 顾客变动信息 商品变动信息 顾客号 商品固有信息 顾客固有 信息 顾客号 供应商号 开户日期 日期 销售数量 日期 商品号 商品 顾客 销售 二、逻辑模型 目前数据仓库还是建立在关系数据库基础上的,所以在数据仓库中采用的逻辑模型就是关系模型,主题以及主题之间的联系都是通过关系来表示。 关系模型概念简单、清晰、用户易懂,并且有严格的数学基础和关系数据理论。 表示方法:关系模式即 关系名(属性1,属性2,…) 三、物理模型 物理模型:逻辑模型在数据仓库中的实现,如物理存取方式,数据存储结构,数据存放位置,存储分配等。 设计物理模型考虑因素:I/O存取时间、空间利用率、维护代价等。 考虑到数据仓库中的数据量大而且操作单一等特点,可采用一些提高数据仓库性能的技术,如:合并表、引入冗余、生成导出数据、建立广义索引等。 四、高级模型、中级模型和低级模型 高级模型:即E-R模型 低级模型:即物理数据模型,与数据库相同 中间模型:DIS(data item set)数据项集。可以看作是E-R图的细分,
文档评论(0)