网站大量收购独家精品文档,联系QQ:2885784924

ETL开发规范.doc

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL开发规范

ID :LC-CMM-PE-TEMPLATE-22 中国电信省级经营分析概要设计规格书 (业务分册) (V 1.0) 南京联创科技股份有限公司 文 档 信 息 项 目 名 称 XX项目 项 目 经 理 XXX 文 档 编 号: LC-CMM-PE-TEMPLATE-22 文 档 变 更 记 录 版 本 编 号 版 本 日 期 作 者 说 明 V1.0 2003-11-11 XXX、XXX 初稿 审 核 审核组织 审核代表 签字 时间 批 准 批准组织 批准代表 签字 时间 目 录 1 总则 4 1.1 概述 4 1.2 设计原则 4 1.2.1 统一设计、规范开发 4 1.3 数据获取和ETL处理 4 1.3.1 数据获取 4 1.3.2 ETL处理 5 1.4 数据存储 5 1.4.1 数据分表 5 1.4.2 数据分区 5 1.4.3 关于两个特征字段 5 2 ETL规范 6 2.1 数据处理规范 6 2.1.1 标识统一规范 6 2.1.2 数据分表命名规范 6 2.1.3 程序命名规范 6 2.1.4 日志规范 7 2.1.5 动态建表规范 7 2.1.6 参数规范 7 2.2 ETL模块划分 7 2.3 代码编写规范 8 2.3.1 编写目的 8 2.3.2 代码编写通用规范 8 2.3.3 SQL代码编写规范 11 2.3.4 C/C++编程规范 16 总则 概述 本规范定义联创科技在中国电信公司省级经营分析系统(PBI)项目中ETL相关的设计、建设基本原则和规范。 设计原则 本规范适用于联创科技股份公司省级电信经营分析项目ETL小组。 统一设计、规范开发 1、省级经营分析系统由于数据庞大,因此,在数据ETL上花费的工作量是巨大的,为了减轻系统负担,提高系统效率,繁杂的统一编码、统一维度标识等工作需要在数据进入数据仓库之前完成,仓库区之后只负责有限范围内的ETL工作。 2、省级经营分析的接口为文件接口,此时,需要建立规范、清晰的文件接口格式及数据传送协议。 3、对于编程工作,需要定制统一的开发模板,及开发说明及修改模板,以利于和测试、工程等后续环节的良好衔接。 4、ETL编程的模块划分将配合系统规划进行各模块的划分,清晰地体现出各个模块之间的依赖关系。并降低各模块之间的耦合,保证模块内的稳定性,和良好扩展性。 数据获取和ETL处理 数据获取 设计点和评估因子说明: 业务系统承载能力评估、网络承载能力评估、数据获取实时性需求、接口双方通讯机制与约定、接口数据的维护。 ETL处理 设计点和评估因子: 数据转换处理逻辑、重抽支持、性能评估 数据存储 数据分表 进行按时间的数据分割处理,目的是能够方便、可行地进行索引建立、提取业务数据片断,同时也为ETL重抽提供基本保障。 数据分区 分区实际上是数据分割技术更细节的延伸,对于省级经营分析系统来说,数据量庞大,对各地传送的数据,需要按地域进行分区以方便数据统计、ETL重抽。 关于两个特征字段 说明:数据仓库为所有的RECORDS(记录)设计了ETL_CYCLE_ID(ETL周期标识)和(ETL_TIME)记录实际加载时间两个特征字段,分别标识记录集合所属的ETL周期和记录的实际加载时间。 目的: 方便重抽处理 方便审核数据 例如:200308月的帐单实际在2003年10月01日加载至数据仓库,那么这批记录的ETL_CYCLE_ID赋值为200308,加载时间赋值为2003年10月01日。 ETL规范 数据处理规范 标识统一规范 省级经营分析的数据来源于各个系统,即使在数据接口之前就已将各个本地网之间的数据标识统一,但数据汇集之后,仍然难保证标识的一致性,因此,ETL小组约定,所有的标识均按以下规则进行数据转换: 所有标识位类型:VARCHAR2(30); [地域编码(两位)]_[接口标识]_ [后缀补码]; 后缀补码的约定为字符9; 数据分表命名规范 ETL的数据分表策略如下: [模板表名]_[分割日期] 说明:分割日期可以为天、月、年,具体由处理周期及存储策略决定。分表在数据处理过程中直接生成。 程序命名规范 程序命名需要做到见名知义,程序名尽量起得清晰,通俗: 业务模块命名规则: [程序属性简写]_[处理业务模块表名] 遵循以上规则,名称超过规范长度

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档