- 1、本文档共67页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4数据挖掘:概念与技术-第三章-数据仓库和OLAP技术1.ppt
数据挖掘:概念与技术 数据挖掘:概念与技术 — 第三章:数据仓库与OLAP技术概述 — 第三章:数据仓库与OLAP技术概述 什么是数据仓库? 多维数据集模型 数据仓库体系结构 数据仓库实现 从数据仓库到数据挖掘 什么是数据仓库? 多种定义方式,但不严格 从组织机构的操作数据库分离并独立维护的决策支持数据库 支持信息处理,为统一的历史数据分析提供坚实的平台 数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程。W. H. Inmon 建立数据仓库: 构建和使用数据仓库的过程 数据仓库—面向主题的 围绕主题组织数据, 如顾客、产品、销售等。 关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。 提供特定主题的简明视图,排除对于决策支持过程无用的数据。 数据仓库——集成的 由多个异构数据源集成构建 关系数据库,平面文件,联机事务记录 应用数据清理和数据集成技术 确保命名约定,编码结构,属性度量等一致性 将数据迁入数据仓库时需要进行数据转换 数据仓库——时变的 数据仓库中数据的时间范围比业务操作系统中长得多 业务操作数据库:当前数据 数据仓库:提供历史数据信息 (如过去5-10年) 数据仓库中的结构主键: 都隐式或显示包含时间元素 但业务操作数据主键不一定包含时间元素 数据仓库——非易失的 物理存储:与操作环境分离,虽然来自其中。 数据仓库环境中不发生数据更新操作 不需要事务处理,恢复和并发控制机制 只需要两种数据操作: i数据初始化装入 数据访问 数据仓库与异构数据库 传统异构数据库集成:查询驱动方法 在异构数据库上建立包装程序和集成程序(中介程序) 提交查询时,使用元数据字典将查询转换为异构站点上的查询。然后将查询映射和发送到局部查询处理器,由不同站点返回的结果集成为全局查询结果集。 复杂的信息过滤和集成处理,与局部数据源的处理竞争资源 数据仓库:更新驱动方法,高性能 将异构源的信息预先集成并存储在数据仓库中,供直接查询和分析 不包含最近的信息 支持复杂多维查询 数据仓库与业务操作数据库 OLTP (on-line transaction processing),联机事务处理 传统关系数据库管理系统的主要任务 日常操作:购物,库存,制造,银行,工资,注册,记账等。 OLAP (on-line analytical processing),联机分析处理 数据仓库系统的主要任务 数据分析和决策制定 区别 (OLTP vs. OLAP): 用户和系统的面向性:顾客——事务和查询(办事员,打工仔)与市场——数据分析(知识工人,老板) 数据内容: 当前的,细节的 vs. 历史的, 汇总聚集的 数据库设计: E-R + 业务应用 vs. 星形、雪花型 + 主题 视图: 当前的,局部的 vs. 进化的,集成的 访问模式: 更新 vs. 只读 但查询复杂 OLTP vs. OLAP 为什么需要分离数据仓库? 提高两个系统的系能 DBMS— tuned for OLTP: access methods, indexing, concurrency control, recovery Warehouse—tuned for OLAP: complex OLAP queries, multidimensional view, consolidation 不同的功能和不同的数据: 数据不全: Decision support requires historical data which operational DBs do not typically maintain 数据聚合: DS requires consolidation (aggregation, summarization) of data from heterogeneous sources 数据质量: different sources typically use inconsistent data representations, codes and formats which have to be reconciled Note: 越来越多的系统直接在DBMS上进行 Chapter 3: Data Warehousing and OLAP Technology: An Overview What is a data warehouse? A multi-dimensional data model Data warehouse architecture Data warehouse implementation From data warehousing to data mining 由表和电子数据表到数据立方体 数据仓库和OL
文档评论(0)