C6应用数据分析模型—微能力认证(作业) (12).pdfVIP

C6应用数据分析模型—微能力认证(作业) (12).pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

C6应用数据分析模型—微能力认证(作业)(12)--第1页

数据模型分析的方法

从目前的数据库及数据仓库建模方法来说,主要分为四类。

第一类是大家最为熟悉的关系数据库的三范式建模,通常我们将三范式建

模方法用于建立各种操作型数据库系统。

第二类是Inmon提倡的三范式数据仓库建模,它和操作型数据库系统的三

范式建模在侧重点上有些不同。Inmon的数据仓库建模方法分为三层,第一层

是实体关系层,也即企业的业务数据模型层,在这一层上和企业的操作型数据

库系统建模方法是相同的;第二层是数据项集层,在这一层的建模方法根据数

据的产生频率及访问频率等因素与企业的操作型数据库系统的建模方法产生了

不同;第三层物理层是第二层的具体实现。

第三类是Kimball提倡的数据仓库的维度建模,我们一般也称之为星型结

构建模,有时也加入一些雪花模型在里面。维度建模是一种面向用户需求的、

容易理解的、访问效率高的建模方法,也是笔者比较喜欢的一种建模方式。

第四类是更为灵活的一种建模方式,通常用于后台的数据准备区,建模的

方式不拘一格,以能满足需要为目的,建好的表不对用户提供接口,多为临时

表。

下面简单谈谈第四类建模方法的一些的经验。

数据准备区有一个最大的特点,就是不会直接面对用户,所以对数据准备

区中的表进行操作的人只有ETL工程师。ETL工程师可以自己来决定表中数据

的范围和数据的生命周期。下面举两个例子:

1)数据范围小的临时表

C6应用数据分析模型—微能力认证(作业)(12)--第1页

C6应用数据分析模型—微能力认证(作业)(12)--第2页

当需要整合或清洗的数据量过大时,我们可以建立同样结构的临时表,在

临时表中只保留我们需要处理的部分数据。这样,不论是更新还是对表中某些

项的计算都会效率提高很多。处理好的数据发送入准备加载到数据仓库中的表

中,最后一次性加载入数据仓库。

2)带有冗余字段的临时表

由于数据准备区中的表只有自己使用,所以建立冗余字段可以起到很好的

作用而不用承担风险。

举例来说,笔者在项目中曾遇到这样的需求,客户表{客户ID,客户净扣

值},债项表{债项ID,客户ID,债项余额,债项净扣值},即客户和债项是一对

多的关系。其中,客户净扣值和债项余额已知,需要计算债项净扣值。计算的

规则是按债项余额的比例分配客户的净扣值。这时,我们可以给两个表增加几

个冗余字段,如客户表{客户ID,客户净扣值,客户余额},债项表{债项ID,客

户ID,债项余额,债项净扣值,客户余额,客户净扣值}。这样通过三条SQL

就可以直接完成整个计算过程。将债项余额汇总到客户余额,将客户余额和客

户净扣值冗余到债项表中,在债项表中通过(债项余额×客户净扣值/客户余额)

公式即可直接计算处债项净扣值。

另外还有很多大家可以发挥的建表方式,如不需要主键的临时表等等。总

结来说,正因为数据准备区是不对用户提供接口的,所以我们一定要利用好这

C6应用数据分析模型—微能力认证(作业)(12)--第2页

C6应用数据分析模型—微能力认证(作业)(12)--第3页

一点,以给我们的数据处理工作带来最大的便利为目的来进行数据准备区的表

设计。

数据分析模型在教学中的应用

现代社会已经进入一个“信息化”时代,而信息的主要载

体是数据,在当今信息化社会中扮演着非常重要的角色。任何

行业的各个领域都存在着海量数据,这些杂乱无章的数据隐含

着一些本质规律,而这些规律将为

文档评论(0)

158****7676 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档