【优质】2、数据仓库和数据挖掘的OLAP技术.ppt

【优质】2、数据仓库和数据挖掘的OLAP技术.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【优质】2、数据仓库和数据挖掘的OLAP技术.ppt

数据仓库和数据挖掘的OLAP技术 数据仓库-数据挖掘的有效平台 数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤 数据仓库提供OLAP工具,可用于不同粒度的数据分析 很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现 分类 预测 关联 聚集 什么是数据仓库? 数据仓库的定义很多,但却很难有一种严格的定义 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信息处理提供支持 数据仓库区别于其他数据存储系统 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon 数据仓库关键特征一——面向主题 面向主题,是数据仓库显著区别于关系数据库系统的一个特征 围绕一些主题,如顾客、供应商、产品等 关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。 排除对于决策无用的数据,提供特定主题的简明视图。 数据仓库关键特征二——数据集成 一个数据仓库是通过集成多个异种数据源来构造的。 关系数据库,一般文件,联机事务处理记录 使用数据清理和数据集成技术。 确保命名约定、编码结构、属性度量等的一致性。 当数据被移到数据仓库时,它们要经过转化。 数据仓库关键特征三——随时间而变化 数据仓库是从历史的角度提供信息 数据仓库的时间范围比操作数据库系统要长的多。 操作数据库系统: 主要保存当前数据。 数据仓库:从历史的角度提供信息(比如过去 5-10 年) 数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。 数据仓库关键特征四——数据不易丢失 尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。 操作数据库的更新操作不会出现在数据仓库环境下。 不需要事务处理,恢复,和并发控制等机制 只需要两种数据访问: 数据的初始转载和数据访问(读操作) 数据仓库的构建与使用 数据仓库的构建包括一系列的数据预处理过程 数据清理 数据集成 数据变换 数据仓库的使用热点是商业决策行为,例如: 增加客户聚焦 产品重定位 寻找获利点 客户关系管理 数据仓库与异种数据库集成 异种数据库的集成方法 传统的异种数据库集成:(查询驱动) 在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators ) 查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 数据仓库: (更新驱动) 将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析 查询驱动方法和更新驱动方法的比较 查询驱动的方法 需要负责的信息过滤和集成处理 与局部数据源上的处理竞争资源 对于频繁的查询,尤其是涉及聚集(汇总)操作的查询,开销很大(决策支持中常见的查询形式) 更新驱动的方法(带来高性能) 数据经预处理后单独存储,对聚集操作提供良好支持 不影响局部数据源上的处理 集成历史信息,支持负责的多维查询 数据仓库与操作数据库系统 操作数据库系统的主要任务是联机事务处理OLTP 日常操作: 购买,库存,银行,制造,工资,注册,记帐等 数据仓库的主要任务是联机分析处理OLAP 数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要 OLAP VS. OLTP (1) 用户和系统的面向性 面向顾客(事务) VS. 面向市场(分析) 数据内容 当前的、详细的数据 VS. 历史的、汇总的数据 数据库设计 实体-联系模型(ER)和面向应用的数据库设计 VS. 星型/雪花模型和面向主题的数据库设计 OLAP VS. OLTP (2) 数据视图 当前的、企业内部的数据 VS. 经过演化的、集成的数据 访问模式 事务操作 VS. 只读查询(但很多是复杂的查询) 任务单位 简短的事务 VS. 复杂的查询 访问数据量 数十个 VS. 数百万个 OLAP VS. OLTP (3) 用户数 数千个 VS. 数百个 数据库规模 100M-数GB VS. 100GB-数TB 设计优先性 高性能、高可用性 VS. 高灵活性、端点用户自治 度量 事务吞吐量 VS. 查询吞吐量、响应时间 为什么需要一个分离的数据仓库? 提高两个系统的性能 DBMS是为OLTP而设计的:存储方式,索引, 并发控制, 恢复 数据仓库是为OLAP而设计:复杂的 OLAP查询, 多维视图,汇总 不同的功能和不同的数据: 历史数据: 决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护 数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总) 数据质量: 不同的源使用不一致的数据表示、编码和格式,对这些数据

文档评论(0)

lostemple_1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档