网站大量收购独家精品文档,联系QQ:2885784924

数据仓库基础分析.ppt

  1. 1、本文档共96页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库基础 信息技术部 开发三处 徐景春 日程 基础知识 实践经验 日程:技术知识 基本概念 体系结构 设计方法 技术实现 背景:数据处理的发展历程 1969:E.F.Code 发明关系数据库 1991:W.H.Bill Inmon 发表“构建数据仓库” 2008:W.H.Bill Inmon DW2.0 维克托·迈尔-舍恩伯格大数据 文件方式 数据与程序混杂 管理复杂 并发问题 一致性问题 数据库 OLTP处理交易 统计类需求 数据源繁杂 传统数据仓库 OLAP处理分析 性能问题 非结构化数据 实时 说明 不是“替代”关系 本文档重点介绍“传统数据仓库” DW2.0 大数据平台 …… OLTP与OLAP 理赔 保全 承保 OLTP 处理交易 流程 运转 OLAP 分析数据 数据 记录、观察 数据仓库定义 Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of management’s decision. —— [Inmon,1996] 数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。 数据仓库其他定义 Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform . —— [Ladley,1997] ……是一组方法、技术、工具…… Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure. —— Appleton,1995][Haley,1997][Gardner 1998] ……是一个过程…… 四个特征[Inmon,1996] 面向主题 主题是在较高层次上对数据抽象 面向主题的数据组织分为两步骤 确定主题 确定每个主题所包含的数据内容 每个主题由一组关系表实现,相关表通过公共的键码关联(如:客户ID) 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) 集成 从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清洗) 代码、粒度、结构 非易失的(不可更改的) 批处理增加,仓库已经存在的数据不会改变 随时间变化 键码都包含时间项,以标明数据的历史时期 面向主题 集成 非易失的(不可更改的) 随时间变化 Data Mart、ODS、ETL Data Mart 数据集市 小型的,面向部门或工作组级数据仓库。 Inmon:部门级仓库,数据仓库数据的部分拷贝 Kimball:数据仓库的组成部分,构成数据仓库 Operation Data Store 操作数据存储 支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境 四个基本特点 面向主题的(Subject -Oriented) 集成的 可变的 当前或接近当前的 ETL 数据抽取、转换、装载(Extract/Transformation/Load) 元数据、分割、粒度 元数据 关于数据的数据。用于构造、维持、管理使用数据仓库。 分割 数据分散到各自的物理单元中去,它们能独立地处理。 粒度 指数据仓库的数据单位中保存数据的细化或综合程度的级别 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 粒度影响数据仓库中数据量的大小 粒度问题是设计数据仓库的一个重要方面 在数据仓库的细节级上创建两种粒度 短期储存的低粒度(真实档案),满足细节查询 具有综合的高粒度(轻度综合),做分析 BI的由来 商业智能(Business Intelligence,简称BI) 最早是由美国Gartner Group于1996年提出的。当时将其定义为一类数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。 数据仓库、OLAP、数据挖掘总是纠缠在一起,交流太麻烦,统称为BI,不仅如此,以后不用DW/OLAP/DM,BI也不会过时。 本文没有严格区分数据仓库和BI 日程:技术知识 基本概念 体系结构 设计方法 技术实现 体系结构的重点 重点问题:数据的获取、存储和使用 数据仓库和集市的加载能力至关重要 数据仓库和集市的查询输出能力至关重要 Data Staging:数据处理区域,为了实现ET

文档评论(0)

四月 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档