- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与电信EDA简介讲述
数据仓库与电信EDA简介
中国电信 上海信息化研发中心
2015年11月
TOPIC
2
数据仓库
3
数据仓库概述
数据仓库模型设计
数据仓库体系架构
数据仓库
数据仓库(DataWarhouse)是一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。
特征
1
2
3
4
面向主题(Subject Oriented)
数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行 组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据
集成(Integrated)
数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等
时变(Time Variant)
数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据
非易失(Nonvolatile)的数据集合
数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。
数据仓库与生产数据库的比较
数据仓库
6
数据仓库概述
数据仓库模型设计
数据仓库体系架构
数据仓库模型设计
表
1
2
3
4
事实表(Fact Table)
事实表包含的是业务数据信息,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录。
维表( Dimension Table)
维表包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。
数据仓库模型设计—雪花模型
数据仓库模型设计—星型模型
数据仓库模型设计—多维模型
数据仓库模型设计—多维模型
为了分析方便,将同一维度的不同层次的维度(如地市ID,区县ID)都融合到事实表中。
维度模型也是星型模型。
强调的是先对维度进行预处理,将多个维度集合到一个事实表,包含了多个维度,这样可以组合各维度,形成灵活的报表查询。
数据仓库
12
数据仓库概述
数据仓库模型设计
数据仓库体架构
数据仓库体系架构
数据仓库体系架构
源数据
一般取自生产数据库的镜像,从库;尽量减少对线上生产库的影响;
按文件类型:RDBMS、文本文件、HDFS、消息流等;
结构化,半结构化和非结构化
按取数频率:月,周,日,小时,分钟等级别
数据仓库体系架构
ETL
ETL(Extract-Transform-Load )是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
工具:Informatic, DataStage, Kettle, Datax,Sqoop
数据仓库体系架构 ETL-INFOMATICA
数据仓库体系架构 ETL-INFOMATICA
数据仓库体系架构
仓库
ETL(Extract-Transform-Load )是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
工具:Informatic, DataStage,
数据仓库体系架构 仓库—接口层
接口层
也称STAGE,ODS层;特点如下:
采集外围的源系统的数据;如CRM,计费等
此层的数据模型与源系统基本保持一致!
根据不同数据的特点,采集数据频率和实时性有所不同;
数据仓库体系架构 仓库—整合层
整合层
数据仓库的核心层;
按照主题体系进行组织的细节数据;一个细节数据表可以来自多个不同源系统的接口层的数据;
采用统一数据模型(多维);数据原则上是统一编码格式;
数据来源----接口层;数据输出----汇总层
数据仓库体系架构 仓库—汇总层
汇总层
按主题加工需要,形成汇总数据
通过维度(日期、地域、产品等)对运营、分析数据进行汇总的数据
可有轻度汇总数据;然后进行高层汇总
数据来源----整合层或本层
数据仓库体系架构 DEMO
CRM
计费
账务
流量
CRM
计费
账务
流量
明细表A
明细表B
明细表C
汇总表A
汇总表B
汇总层
整合层
接口层
源数据
数据仓库体系架构
数据集市
简称DM,以某个应用为出发点而建设的局部DW;
DM只关心自己需要的数据,不会全盘考虑企业整体的数据架构
文档评论(0)