数据仓库与电信EDA简介讲述.pptx

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与电信EDA简介讲述

数据仓库与电信EDA简介 中国电信 上海信息化研发中心 2015年11月 TOPIC 2 数据仓库 3 数据仓库概述 数据仓库模型设计 数据仓库体系架构 数据仓库 数据仓库(DataWarhouse)是一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。 特征 1 2 3 4 面向主题(Subject Oriented) 数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行 组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据 集成(Integrated) 数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等 时变(Time Variant) 数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据 非易失(Nonvolatile)的数据集合 数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。 数据仓库与生产数据库的比较 数据仓库 6 数据仓库概述 数据仓库模型设计 数据仓库体系架构 数据仓库模型设计 表 1 2 3 4 事实表(Fact Table) 事实表包含的是业务数据信息,数据取值通常是可度量的、连续型的,且具有可加性,数据量可达到几百万甚至上亿条记录。 维表( Dimension Table) 维表包含的是相应维度的描述型信息,这些信息用作查询的约束条件,一般是离散的、描述性的,不具有可加性。 数据仓库模型设计—雪花模型 数据仓库模型设计—星型模型 数据仓库模型设计—多维模型 数据仓库模型设计—多维模型 为了分析方便,将同一维度的不同层次的维度(如地市ID,区县ID)都融合到事实表中。 维度模型也是星型模型。 强调的是先对维度进行预处理,将多个维度集合到一个事实表,包含了多个维度,这样可以组合各维度,形成灵活的报表查询。 数据仓库 12 数据仓库概述 数据仓库模型设计 数据仓库体架构 数据仓库体系架构 数据仓库体系架构 源数据 一般取自生产数据库的镜像,从库;尽量减少对线上生产库的影响; 按文件类型:RDBMS、文本文件、HDFS、消息流等; 结构化,半结构化和非结构化 按取数频率:月,周,日,小时,分钟等级别 数据仓库体系架构 ETL ETL(Extract-Transform-Load )是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 工具:Informatic, DataStage, Kettle, Datax,Sqoop 数据仓库体系架构 ETL-INFOMATICA 数据仓库体系架构 ETL-INFOMATICA 数据仓库体系架构 仓库 ETL(Extract-Transform-Load )是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 工具:Informatic, DataStage, 数据仓库体系架构 仓库—接口层 接口层 也称STAGE,ODS层;特点如下: 采集外围的源系统的数据;如CRM,计费等 此层的数据模型与源系统基本保持一致! 根据不同数据的特点,采集数据频率和实时性有所不同; 数据仓库体系架构 仓库—整合层 整合层 数据仓库的核心层; 按照主题体系进行组织的细节数据;一个细节数据表可以来自多个不同源系统的接口层的数据; 采用统一数据模型(多维);数据原则上是统一编码格式; 数据来源----接口层;数据输出----汇总层 数据仓库体系架构 仓库—汇总层 汇总层 按主题加工需要,形成汇总数据 通过维度(日期、地域、产品等)对运营、分析数据进行汇总的数据 可有轻度汇总数据;然后进行高层汇总 数据来源----整合层或本层 数据仓库体系架构 DEMO CRM 计费 账务 流量 CRM 计费 账务 流量 明细表A 明细表B 明细表C 汇总表A 汇总表B 汇总层 整合层 接口层 源数据 数据仓库体系架构 数据集市 简称DM,以某个应用为出发点而建设的局部DW; DM只关心自己需要的数据,不会全盘考虑企业整体的数据架构

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档