- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阿⾥巴巴⼤数据之路-⼤数据领域建模综述
阿⾥巴巴⼤数据之道-⼤数据领域建模综述
为什么要数据建模?
Linux 的创始⼈ Torvalds 有⼀段关于“什么才是 秀程序员”的话 :“烂程序员关⼼的是代码,好程序员关⼼的
是数据 结构和它们之间的关系。“
数据建模的好处
性能 :良好的数据模型能帮助我们快速查询所需要的数据,减少 数据的 110 吞吐。
成本 : 良好的数据模型能极⼤地减少不必要的数据冗余,也能实 现计算结果复⽤,极⼤地降低⼤数据系统中的存储和计算成本。
效率 :良好的数据模型能极⼤地改善⽤户使⽤数据的体验,提⾼ 使⽤数据的效率。
质量 : 良好的数据模型能改善数据统计⼝径的不⼀致性,减少数 据计算错误的可能性。
OLTP 和 OLAP 建模区别
OLTP
主要数据操作是随机读写
主要采⽤满⾜ 3NF 的实体关系模型存储数据
在事务处理中解决数据的冗余和⼀ 致性问题
OLAP
主要数据操作是批量读写
事务处理中 的⼀致性不是 OLAP 所关注的
关注数据的整合,以及在⼀次性 的复杂⼤数据查询和处理中的性能
建模⽅法论
ER模型
简述
数据仓库之⽗ Bill lnmon 提出的建模⽅法是从全企业的⾼度设计⼀ 个 3NF 模型,⽤实体关系 ( Entity Relationship, ER)模型
描述企业业 务,在范式理论上符合 3NF。数据仓库中的 3NF 与 OLTP 系统中的 3NF 的区别在于,它是站在企业⾓度⾯向主题
的抽象,⽽不是针对某个具体 业务流程的实体对象关系的抽象。
特点
需要全⾯了解企业业务和数据。
实施周期⾮常长。
对建模⼈员的能⼒要求⾮常⾼。
建模步骤
⾼层模型
⼀个⾼度抽象的模型,描述主要的主题以及主题间的 关系,⽤于描述企业的业务总体概况。
中层模型
在⾼层模型的基础上,细化主题的数据项。
物理模型 (也叫底层模型)
在中层模型的基础上,考虑物理存 储,同时基于性能和平台特点进⾏物理属性的设计,也可能做⼀ 些表的合并、分区的设计
等。
维度模型
简述
维度模型是数据仓库领域的 Ralph Kimball ⼤师所倡导的,他的 The Data 阳rehouse 岛olkit-The Complete Guide to
Dimensional Modeling 是 数据仓库⼯程领域最流⾏的数据仓库建模的经典。
特点
从分析决策的需求出发构建模型,为分析需求服务
具有较好的⼤规模复 杂查询的响应性能
其典型的代表是星形模型,以及在⼀些特殊场景下 使⽤的雪花模型
模型分类
雪花模型
星型模型
星座模型
建模步骤
选择需要进⾏分析决策的业务过程
业务过程可以是单个业务事 件,⽐如交易的⽀付、退款等 ;也可以是某个事件的状态,⽐如 当前的账户余额等 ;还可以是⼀
系列相关业务事件组成的业务流 程,具体需要看我们分析的是某些事件发⽣情况,还是当前状态, 或是事件流转效率。
选择粒度
在事件分析中,我们要预判所有分析需要细分的程度,从⽽决定选择的粒度。粒度是维度的⼀个组合。
识别维表
选择好粒度之后,就需要基于此粒度设计维表,包括 维度属性,⽤于分析时进⾏分组和筛选。
选择事实
确定分析需要衡量的指标。
Data Vault 模型
简述
Data Vault 是 Dan Linstedt 发起创建的⼀种模型,它是 ER 模型的衍 ⽣,其设计的出发点也是为了实现数据的整合,但不能直
接⽤于数据分 析决策。
特点
可审计的基础数据层
数据的历史 性、可追溯性和原⼦
⽽不要求对数据进⾏过度的⼀致性处理和整合
基于主题概念将企业数据进⾏结构化组织
组成部分
Hub
是企业的核⼼业务实体,由实体 key、数据仓库序列代理 键、装载时间、数据来源组成。
Link
代表 Hub 之间的关系。这⾥与 ER 模型最⼤的区别是
您可能关注的文档
- BI与大数据区别.docx
- DB2删除大数据量表方法.pdf
- DMP营销官的大数据平台.docx
- JAVA大数据处理题.pdf
- Java的8大基本数据类型.pdf
- java对大数据的处理.pdf
- Java及大数据学习路线.pdf
- MySQL查询优化之【小表驱动大表,小数据集驱动大数据集】.pdf
- mysql处理大数据太慢-jdbc大数据批量插入很慢问题解决.pdf
- POI海量数据大数据文件生成SXSSFWorkbook使用简介.pdf
- 2024年上海奉贤区初三语文一模试题和答案.pdf
- 2024年上海崇明区初三语文一模试题和答案.pdf
- 2024年上海金山区初三语文一模试题和答案.pdf
- 202年高压电工考试题库:高压设备维护保养计划与设备性能监测试题解析.docx
- 2025年法语DELFB水平测试卷:写作技巧提升与范文分析试题.docx
- 2025年消防执业资格考试题库:消防工程验收案例分析试题.docx
- 2025年消防安全知识培训考试题库:消防安全管理体系消防安全管理人员职责试题.docx
- 2025年交通安全管理与事故预防培训考试题库:案例分析.docx
- 2025年中学教师资格证考试《综合素质》心理辅导案例分析真题试卷.docx
- 2025年注册会计师考试《会计》会计分录难点解析与模拟试题.docx
最近下载
- 护理查对制度ppt课件.pptx VIP
- 2023湖北省中小学教师高级职称水平能力测试模拟题.doc VIP
- (高清版)DB12∕T 1279-2023 老年人功能性体适能评估规范 .pdf VIP
- 生肖婚姻禁忌.doc VIP
- 化学电源设计第3章锌锰电池设计与制造工艺.ppt
- 中小学教师高级职称专业水平能力测试模拟题(含答案).docx VIP
- 湖北省中小学教师高级职称专业水平能力测试模拟题学生.docx VIP
- 湖北省中小学教师高级职称专业水平能力测试模拟题必威体育精装版整理学生.docx VIP
- 《GB/T 18849-2023机动工业车辆 制动器性能和零件强度》.pdf
- 2017湖北省中小学教师高级职称水平能力测试模拟题.docx VIP
文档评论(0)