第二章数据仓库中的etl和元数据.ppt

  1. 1、本文档共101页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章数据仓库中的etl和元数据

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 2.3.2 元数据和外部数据(2) 如果方便且费用允许的话,外部数据可以存储在数据仓库中。但在许多情况下,外部数据(尤其是非结构化数据)的数量是巨大的,因此将所有的外部数据存储在数据仓库中是不可能的或者是不经济的。为解决这一问题,可以在数据仓库的元数据中,创建一个条目以说明什么地方能找到外部数据本身,从而可以实现对外部数据进行登录。此时,外部数据无需存储在数据仓库中,而可以存储在任何一个方便、经济的地方,如文件柜、缩微胶片、磁带等等。当然,如果系统需要的话,外部数据仍然可以存储在数据仓库中。 2.3.3 外部数据的存储 外部数据经常包括许多不同的组成部分,而各组成部分对用户而言其重要程度是不一样的。以某一产品的完整生产历史记录为例,生产过程的某些生产指标是很重要的,如从开始到最后装配的时间、所有非装配的原材料的总成本等。除此之外,生产信息中还有许多次要的信息,例如生产的实际日期、装运说明书、生产时的温度。 2.3.4 外部数据的管理 2.3.4 外部数据的管理 为了有效管理好外部数据,有经验的DSS分析员或工程师首先要弄清楚哪些是重要的数据部分?哪些是相对次要的数据部分?然后将最重要的数据存储在一个联机的、容易访问的位置,而对于不重要的细节则将其放在大容量的存储位置。这样,就能够有效地存储和管理大量的外部数据。 第二章 目录 2.1 ETL 2.2 元数据 2.3 外部数据 2.4 本章小结 2.4 本章小结 本章主要讨论了构建数据仓库过程中的两个重要概念:ETL和元数据。首先,详细介绍了ETL的概念、作用;ETL的工具以及如何选择合适的ETL工具。接着,介绍元数据的由来、概念、分类、管理和标准等,并且给出了一些使用ETL和元数据的相关建议。 事实上,数据仓库不仅拥有内部的、结构化的数据,还拥有与企业运营有关的来自企业以外的外部数据。在本章的最后一节,介绍了外部数据/非结构化数据的概念、与元数据关系以及它们的存储和管理等。 End of Chapter 2 * * * * * * * * * * * * * * * * * * * * * * * * * 2.2.1 什么是元数据(10) (4)数据加载 在数据加载过程中,元数据记录文件分配键的分配规则、完全刷新的计划、增量加载的计划等内容。 (5)数据存储 元数据包含对数据仓库的数据模型、物理文件、表和列的定义、有效性检查的规则等内容的描述。 (6)信息传递 此阶段的元数据包括描述预定义查询和报表的列表、特殊OLAP分析的数据模型以及为OLAP分析制定的数据计划。 没有规矩不成方圆。为了更好地发挥元数据在数据仓库中的作用,必须对其进行有效的管理,而一个统一的元数据标准是元数据管理的前提。但目前缺乏全行业内统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。 近几年,随着元数据联盟MDC(meta data coalition)的开放信息模型OIM(open information model)和OMG组织的公共仓库模型CWM(common warehouse model)标准的逐渐完善,以及MDC和OMG组织的合并,将为数据仓库厂商提供统一的标准,从而为元数据管理铺平道路。 2.2.2 元数据的标准化(1) 下面分别介绍数据仓库领域中两个最主要的元数据标准:MDC的OIM标准和OMG的CWM标准。 1. MDC的OIM存储模型 MDC成立于1995年,是一个致力于建立与厂商无关的、不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,该联盟有150多个会员,其中包括微软和IBM等著名软件厂商。1999年7月MDC接受了微软的建议,将OIM作为元数据标准。 2.2.2 元数据的标准化(2) 2.2.2 元数据的标准化(2) OIM的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。它涉及了信息系统开发(从设计到发布)的各个阶段,通过对元数据类型的标准描述来达到工具和知识库之间的数据共享。OIM所声明的元数据类型都采用统一建模语言UML(universal modeling language)进行描述,并被组织成易于使用、易于扩展的多个主题范围(sub

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档