- 1、本文档共96页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库基础
信息技术部 开发三处 徐景春
日程
基础知识
实践经验
日程:技术知识
基本概念
体系结构
设计方法
技术实现
背景:数据处理的发展历程
1969:E.F.Code
发明关系数据库
1991:W.H.Bill Inmon
发表“构建数据仓库”
2008:W.H.Bill Inmon DW2.0
维克托·迈尔-舍恩伯格大数据
文件方式
数据与程序混杂
管理复杂
并发问题
一致性问题
数据库
OLTP处理交易
统计类需求
数据源繁杂
传统数据仓库
OLAP处理分析
性能问题
非结构化数据
实时
说明
不是“替代”关系
本文档重点介绍“传统数据仓库”
DW2.0
大数据平台
……
OLTP与OLAP
理赔
保全
承保
OLTP
处理交易
流程
运转
OLAP
分析数据
数据
记录、观察
数据仓库定义
Data warehouse is a subject oriented, integrated,non-volatile and time variant collection of data in support of management’s decision. —— [Inmon,1996]数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。
数据仓库其他定义
Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform . —— [Ladley,1997] ……是一组方法、技术、工具……
Data warehouse is a process of crating, maintaining,and using a decision-support infrastructure. —— Appleton,1995][Haley,1997][Gardner 1998] ……是一个过程……
四个特征[Inmon,1996]
面向主题
主题是在较高层次上对数据抽象
面向主题的数据组织分为两步骤
确定主题
确定每个主题所包含的数据内容
每个主题由一组关系表实现,相关表通过公共的键码关联(如:客户ID)
主题内数据可以存储在不同介质上(综合级,细节级,多粒度)
集成
从原有的分散数据库数据中抽取来的,需要消除数据表述的不一致性(数据的清洗)
代码、粒度、结构
非易失的(不可更改的)
批处理增加,仓库已经存在的数据不会改变
随时间变化
键码都包含时间项,以标明数据的历史时期
面向主题
集成
非易失的(不可更改的)
随时间变化
Data Mart、ODS、ETL
Data Mart
数据集市
小型的,面向部门或工作组级数据仓库。
Inmon:部门级仓库,数据仓库数据的部分拷贝
Kimball:数据仓库的组成部分,构成数据仓库
Operation Data Store
操作数据存储
支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境
四个基本特点
面向主题的(Subject -Oriented)
集成的
可变的
当前或接近当前的
ETL
数据抽取、转换、装载(Extract/Transformation/Load)
元数据、分割、粒度
元数据
关于数据的数据。用于构造、维持、管理使用数据仓库。
分割
数据分散到各自的物理单元中去,它们能独立地处理。
粒度
指数据仓库的数据单位中保存数据的细化或综合程度的级别
粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多
粒度影响数据仓库中数据量的大小
粒度问题是设计数据仓库的一个重要方面
在数据仓库的细节级上创建两种粒度
短期储存的低粒度(真实档案),满足细节查询
具有综合的高粒度(轻度综合),做分析
BI的由来
商业智能(Business Intelligence,简称BI)最早是由美国Gartner Group于1996年提出的。当时将其定义为一类数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。
数据仓库、OLAP、数据挖掘总是纠缠在一起,交流太麻烦,统称为BI,不仅如此,以后不用DW/OLAP/DM,BI也不会过时。
本文没有严格区分数据仓库和BI
日程:技术知识
基本概念
体系结构
设计方法
技术实现
体系结构的重点
重点问题:数据的获取、存储和使用
数据仓库和集市的加载能力至关重要
数据仓库和集市的查询输出能力至关重要
Data Staging:数据处理区域,为了实现ET
文档评论(0)