数据仓库1讲述.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库1讲述

数据仓库技术概述 1.1 数据库到数据仓库 1.2 数据仓库的概念和特征 1.3 数据仓库中的数据组织 1.4 数据仓库体系结构 1.1 从数据库到数据仓库 传统的数据环境:以数据库为中心,数据资源组织方式单一。 数据处理不断有新需求,从事务处理,批处理到决策分析等,且不同类型的数据处理有不同的处理特点。 人们认识到:当数据处理方式发生变化,而数据组织方式并没有改变时,就会出现数据处理方式和数据环境不相适应,从而使得数据处理不能获得理想的结果。 结论:以单一的数据组织方式进行组织的数据库,不能满足数据处理多样化的要求,数据仓库技术应运而生。 1.1 从数据库到数据仓库 数据处理具有多层次的特点,可分为两大类: 操作型处理 On-Line Transaction Processing联机事务处理系统(OLTP) 也称为面向交易的处理系统,其基本特征是用户的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。   OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。 1.1 从数据库到数据仓库 分析型处理 用于管理人员的决策分析,经常要访问大量的历史数据,而很少对数据库进行写操作,除非对数据库进行更新或装入时。 两种不同类型的数据处理存在巨大差异,从应用的对象到数据的结构、内容和用法都不相同。 1.1 从数据库到数据仓库 (1)事务处理和分析处理的性能特征不同 事务处理环境:用户的行为特点是数据的存取操作频率高,而每次操作处理的时间短。因此系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间。 分析处理环境:用户的行为模式与上面完全不同,一个分析处理程序可能要连续运行几个小时,从而消耗大量系统资源。 1.1 从数据库到数据仓库 【例】 在OLTP 系统中,事务的吞吐量比率通常使用TPS或TPM 来表示。 TPS:Transactions Per Second,即服务器每秒处理的事务数。 TPM:Transactions Per Minute,tpm值在国内外被广泛用于衡量计算机系统的事务处理能力。 在DSS 中,吞吐量通常用每小时处理的查询数QPH 来表示。这些查询数量庞大,在它完成前,占用绝大部分机器资源。 一个OLTP 系统即使很大,也不过300GB左右,而一个大型DSS 的规模可以轻易达到1TB 。(1TB=1000GB) 1.1 从数据库到数据仓库 (2)数据集成问题 事务处理:目的在于使业务处理自动化,一般只需要与本部门业务相关的当前数据,而对整个企业范围内的集成应用考虑很少。 分析处理:需要集成的数据,不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等的相关数据。 1.1 从数据库到数据仓库 当前绝大多数企业内部数据的真正状况是分散而非集成的,主要原因: 事务处理应用的分散 “蜘蛛网”问题 数据不一致问题 1.1 从数据库到数据仓库 (3)历史数据问题 事务处理:一般只需当前数据。数据库中也只存储短期数据,并且不同数据保存期也不相同。即使有历史数据保存,也不利用。 分析处理:对决策者而言,历史数据相当重要,许多分析方法必须以大量历史数据为依托,没有对历史数据的详细分析,很难把握企业的发展趋势。 1.1 从数据库到数据仓库 (4)数据的综合问题 事务处理积累了大量的细节数据,一般DSS不对细节数据分析。一是细节数据量大,严重影响分析效率;二是太多的细节数据不利于分析人员将注意力集中在有用信息上。因此,分析处理前经常要综合,而事务处理系统不具备这种综合能力。 第一章 数据仓库技术概述 1.1 数据库到数据仓库 1.2 数据仓库的概念和特征 1.3 数据仓库中的数据组织 1.4 数据仓库体系结构 1.2 数据仓库的概念和特征 数据仓库系统构造方面的领头设计师W.H.Inmen 对数据仓库的定义为: 数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用于支持经营管理中的决策制定过程。 1.2 数据仓库的概念和特征 从定义可看出:DW是明确为决策支持服务,而DB是为事务处理服务。 数据仓库的主要特征: 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据仓库的数据是随时间不断变化的 下面讨论数据仓库的关键特征: 1.2 数据仓库的概念和特征 1.数据仓库的数据是面向主题的 从逻辑意义上讲,主题是企业中某一宏观分析领

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档