- 1、本文档共203页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章 数据仓库与数据挖掘概述 把握数据仓库与数据库的差别和联系。首先, 数据仓库对数据库的发展的贡献是将操作型处理和分析型处理区分开来, 使得不同类型的数据处理在不同的数据环境中进行;其次, 数据仓库与数据库是互补的, 数据仓库的产生不是要替代原来的 OLTP数据库, 而是两者一起组成一个企业的数据库体系化环境; 重点掌握数据仓库数据的四个基本持征: 面向主题的、集成的、不可更新的、随时间不断变化的; 对数据仓库的数据组织有一定的认识, 明确数据仓库数据的抽取、集成过程握粒度、分割和数据追加等概念。 第1章 数据仓库与数据挖掘概述 ? 引言 ? 引言 随着计算机技术的飞速发展和企业界不断提出新的需求, 数据仓库技术应运而生。 传统的数据库技术是以单一的数据资源, 即数据库为中心、进行从事务处理、批处理到决策分析等各种类型的数据处理工作。 然而, 不同类型的数据处理有着其不同的处理持点, 以单一的方式进行组织的数据库并不能反映这种差异, 满足不了数据处理多样化的要求。 近年来, 随着计算机应用, 特别是数据库应用的广泛普及, 人们对数据处理的这种多层次持点有了更清晰的认识。 ? 引言 ? 操作型处理也叫事务处理, 是指对数据库联机的日常操作, 通常是对一个或一组记录的查询和修改, 主要是为企业的持定应用服务的, 人们关心的是响应时间, 数据的安全性和完整性。 分析型处理用于管理人员的决策分析。例如, DSS (决策支持系统, 见备注),(经理信息系统, 见备注)和多维分析等, 经常要访问大量的历史数据。 两者之间的巨大差异使得操作型处理和分析型处理的分离成为必然。这种分离, 划清了数据处理的分析型环境与操作型环境之间的界限, 从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境 ? 1.1 从数据库到数据仓库 ? 1.1 从数据库到数据仓库 事务处理环境不适宜 DSS 应用 ? 具体原因概括起来主要有以下五条 1. 事务处理和分析处理的性能特性不同 ? 2. 数据集成问题 ? ① 事务处理应用的分散 ? ② “蜘蛛网”问题 ? ③ 数据不一致问题 ? ④ 外部数据和非结构化数据 ? 3. 数据动态集成问题 ? 4. 历史数据问题 ? 5. 数据的综合问题 ? 构建新的分析处理环境的必要性 ? ? 1.1 从数据库到数据仓库 ? 事务处理环境不适宜 DSS 应用 数据库系统作为数据管理手段, 主要用于事务处理; 在这些数据库中已经保存了大量的日常业务数据。 传统的 DSS 一般是直接建立在事务处理环境上的; 数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。 尽管数据库在事务处理方面的应用获得了巨大的成功, 但它对分析处理的支持一直不能令人满意, 尤其是当以业务处理为主的联机事务处理(OLTP)应用与以分析处理为主的 DSS 应用共存于同一个数据库系统中时, 这两种类型的处理发生了明显的冲突。 ? 1.1 从数据库到数据仓库 ? 具体原因概括起来主要有以下五条 原因1 事务处理和分析处理的性能特性不同 事务处理环境中, 用户的行为特点是数据的存取操作频率高而每次操作处理的时间短, 因此, 系统可以允许多个用户按分时方式使用系统资源, 同时保持较短的响应时间, OLTP 是这种环境下的典型应用。 在分析处理环境中, 用户的行为模式与此完全不同, 某个 DSS 应用程序可能需要连续运行几个小时, 从而消耗大量的系统资源。 ? 1.1 从数据库到数据仓库 ? 原因2 数据集成问题 DSS 需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提, 相关数据收集得越完整, 得到的结果就越可靠。因此 DSS 不仅需要整个企业内部各部门的相关数据, 还需要企业外部、竞争对手等处的相关数据。 事务处理的目的在于使业务处理自动化, 一般只需要与本部门业务有关的当前数据。而对整个企业范围内的集成应用考虑很少。 当前绝大部分企业内数据的真正状况是分散而非集成的。 ? 1.1 从数据库到数据仓库 ? 上述问题是事务处理环境所固有的, 尽管每个单独的事务处理可能是高效的, 能产生丰富的细节数据, 但这些数据却不能成为一个统一的整体。 对于需要集成数据的 DSS 应用来说, 必须自己在应用程序中对这些纷杂的数据进行集成。 可是, 数据集成是一项十分繁杂的工作, 都交给应用程序完成会大大增加程序员的负担; 并且, 每做一次分析, 都要进行一次这样的集成, 将会导致极低的处理效率。 DSS 对数据集成的迫切需要可能是数据仓库技术出现的最重要动因。 ? 1.1 从数据库到
文档评论(0)