大数据-数据仓库 .pdfVIP

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1.1数据体系建设介绍

背景:简单点描述:报表太多,仓库表太多,我们要清理使用频率低的,但是,那

些该清理,那些不该清理,仓库中茫茫一片”大海“,你不认识我,我也不认识

你,怎么办?大家都站着别动(现有仓库不变),记录一下办个身份证(建设数据

体系)。(体系建设过程就是给每个表办身份证的过程,体系建设的核心是7个葫

芦娃只能有一张身份证(业务合并),其中6娃由于隐身时间太长,大家都给忘了

(下线机制),那么6个葫芦娃一张身份证);

一现有问题:

1层级不规范,和行业不对标;

2宽表字段不够全面;

3部分主题表缺失,eg:电商日志;

4字段不够规范:同一业务名称在不同表中对应不同的名称;

5表名不够规范:没有主题划分,存储策略和计算周期没有明显标识;

6上层表xxdm表复用性太低(名称不规范,不能见名思义,各个开发人员之间的

复用比较低);

7主题划分不明显:一堆乱麻,都是基于需求,没有业务建模的概念;

二基于现有问题我们做了那些改进

1行业对标,采用ods(数据贴源层)-dwd(仓库基础层)-dws(业务线汇总

层)-ads(数据应用用层)的层级对应关系;

2合理冗余字段;

3全面思考主题,补充不全的主题(主要是打点部分,做了合理的拆分);

4字段做了严格规范,id字段规范,名称按照关键字列表(语雀)命名,统一业

务名称(不同的表对应相同的名称);

A名称:同一业务名称在不同表中对应不同的名称;

B数据类型:金额:double(单位:元,秒等的规范)

C值类型:eg:布尔类型混乱:目前:1是0否,

5表名不同层级对应不同规范:eg:表名=层次_业务线_数据主题_表名_存储策略_

计算周期(dws_xx_device_info_detail_a_d)

数据主题:包括用户user、订单order等

表名:表名要能准确描述业务数据的特征。

存储策略:增量I(分区表),全量A(非分区表),快照S(分区表),拉链H

(分区表)(暂时没有需要)

计算周期:年\半年\季\月\周\日\时Y\HY\Q\M\W\D\H。

6统一规范(指标系统的建设)--待我们去深入思考(可作为单独的项目)属于我

们的前景展望;

7划分多个主题:(用户设备,流量/日志,会员,订单,小课(存在依赖关系,后

续开发),轻课),在表设计层面,既有分主题的宽表,也有全部主题的宽表;

三我们现在已经有的(两部分,第一部分:数据表,第二部分:文档沉淀):

1用户设备,流量/日志,会员,订单,小课,轻课的基础宽表;

2dws数据字典(详见石墨文档,语雀超链接没发先怎么用,后续超链接问题解决

后会转移到语雀);

3规范文档:

1数仓命名规范文档(表命名规范,字段命名规范,脚本命名规范)

2数仓开发手册

3数仓分层

4数仓关键字列表(后期会做关键词分类)

4数仓表上线记录

5数仓表下线记录

6数据接入模板(mysql部分已经实现模板化):一个库一个模板

⚠️文档会不断完善,不断扩充,语雀文档是对所有知识点/规范唯一解释(如果不

是,那就想办法让他是);

四我们后续会做的

1完善体系:根据业务继续补充

1已有:用户设备,流量/日志,会员,订单,轻课(大语文)

2小课(存在依赖关系,后续开发)

2上层表开发:

1原则:复用性高,延展性要好;

怎么开发???

步骤1:确定需要迁移的报表:

步骤2:确定迁移报表涉及到的指标能否从现有基础表中直接汇总开发,如果不

能,转入步骤3

(从基础表--中间表)

步骤3:开发中间表:两个原则:1满足现有报表,2最大化的尝试去满足其他报

步骤4:开发类似报表:1能否从现有中间表直接开发,如果不能,分析维度,是

否可以合并,合并,如果不能,开发新表

(中间表--中间宽表)

步骤5:数据校验(对比BDP):

3数据下沉:

如果多个中间表中存在同一个数据字段,并且每个中间表都是同样的计算逻辑(一

般情况是一致的,如果不一致,想办法一致),该字段映射自同一张底层表,那

么这个字段可以下沉到底层表。

五未来会做的

1业务建模(提高业务前瞻性);

2调度体系(头脑风暴了各种调度工具,例如:azkaban不是特别合适,还没有出

结果)

3血缘关系(希望通过平台化的方式实现)

1.2规范化文档

数仓命名规范文档

一表命名规范

1

文档评论(0)

182****5538 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档