工行数据仓库.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
工行数据仓库.pdf

第一章 基本情况 第一章 基本情况 第第一一章章 基基本本情情况况 工行的数据仓库和报表系统基本是行内研发团队设计开发的。数据 2002 10 仓库的建设是从 年开始,已经历经 个年头。 到目前为止,数据仓库的数据量已经累积到超过100t,每天的文本 文件是400g,源系统有90多个。ETL 过程有4 级,每日运行时间大约 14 t+1 24 小时,日报生成时间是 ,月结时间超过 小时。 数据仓库的软硬件以及数据模型基本全是teradata的解决方案,性能 一般依靠定期优化和硬件扩容来保证,目前已经有810个节点在并行执 行批量。 工行的报表系统项目从2009年5月启动,去年投入使用。报表系统 的建设汇集了全行之力,董事长也在制定数据标准、统一部门间指标口 径等工作中发挥了作用。工行报表系统的运维团队有70人左右,报表的 开发都是由总行技术人员负责。 报表系统也是“总行/省行”两级架构,报表模板的同步是每季度定 期自动执行。 报表系统的数据库是oracle,也有io瓶颈问题;报表产品有cognos、 水晶报表以及自主研发的补录工具。 1 第二章 总体架构 第二章 总体架构 第第二二章章 总总体体架架构构 工行的数据仓库主要分为临时区、ODS层、基础层、汇总层、集市层以及下游 的报表区。ETL过程也主要分为三个部分,一级ETL主要生成临时区数据,二级ETL 生成基础层数据,三级ETL生成汇总层数据,四级ETL生成集市层数据,另外报表 数据一般从ODS层、基础层、汇总层和集市层抽取。 总体架构如下图所示: 2.1 图 工行数据仓库总体架构 2 第三章 数据仓库 第三章 数据仓库 第第三三章章 数数据据仓仓库库 工行数据仓库几乎全都是基于teradata软硬件基础的,数据模型也是teradata提 供的标准银行行业模型。 数据仓库大致包括临时区、ODS层、基础层、汇总层、集市层五个部分。 1. 临时区 1. 临时区 11.. 临临时时区区 临时区存放的是业务系统卸出的存量或增量文件,主要是gft文件,也有uds 文 件。 临时区的文件只保留最近7 天,超过7 天的文件将被删除。每天的文件总量是 420g左右,抽取时间超过1小时。 2. ODS层 2. ODS层 22.. OODDSS层层 ODS 层,指的是操作数据层,其中存放的是业务系统的原始数据,其目的是应 对业务系统查询需求,以及对响应时间要求较高的报表应用需求。 ODS层数据仅保存业务系统数据的当前快照。 ODS层的数据是报表应用的一个数据源。 3. 基础层 3. 基础层 33.. 基基础础层层 基础层包含了主要的数据模型,按照teradata的模型标准,分成了十大主题域, 如下图所示: 3 图3.3.1 工行数据仓库十大主题域 基础层模型按照第三范式来建设,下图是基础层模型的一个实例: 图3.3.2 基础层模型实例 基础层数据很少冗余,并且大部分表都拉链化,这些都在很大程度上控制了 数据量。 4 基础层共有数据库表约3000张,其中较为常用的有大约1000张。 从临时区到基础层的数据ETL过程,大约需要2-3 小时。 基础层是报表应用的一个数据源。 4. 汇总层

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档