- 1、本文档共68页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库和数据挖掘 2-2
第二章 数据仓库原理;第二章 数据仓库原理; 数据仓库中的数据组织
粒度
分区
维度
元数据
数据仓库的数据组织形式
数据仓库的数据追加; 数据仓库中的数据组织
粒度
分割
维度
元数据
数据仓库的数据组织形式
数据仓库的数据追加;2.6 数据仓库中的数据组织;2.6 数据仓库中的数据组织; ;数据仓库中的数据存在着不同的综合级别
早期细节级
一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。
为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以合适的方式进行存储。;数据仓库中的数据存在着不同的综合级别
当前细节级
来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进行存储。
这些数据规模较大,实时性强,是数据仓库用户感兴趣的部分。
当前细节级的数据一方面依据数据仓库的既定规则,经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数据。;数据仓库中的数据存在着不同的综合级别
轻度综合级
为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综合。
这一设定的时间段参数又称为“粒度”。
以较小的粒度生成的综合数据,称为“轻度综合级数据”,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率。;数据仓库中的数据存在着不同的综合级别
高度综合级
以较长的时间段,即较大的粒度,对当前细节级的数据进行综合而形成的结果,称为“高度综合级数据”。
高度综合级的数据内容十分精练,可以认为是一种“准决策数据”。
这里,“高度”和“轻度”只是一种相对的概念没有绝对的界限。; ; 数据仓库中的数据组织
粒度
分割
维度
元数据
数据仓库的数据组织形式
数据仓库的数据追加;粒度
对数据仓库中的数据综合程度高低的一个度量。
例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。
粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。
; 粒度
; 粒度
; ;粒度分为两种形式:
样本数据库
在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。
样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。
样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。
; ; 数据仓库中的数据组织
粒度
分区
维度
数据仓库的数据组织形式
数据仓库的数据追加; 分区
数据分区是指把数据分散到可独立处理的分离物理单元中去。数据分割后的数据单元称为分片。
在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管理小的物理单元时比管理大的享有更大的灵活性。
恰当进行分区的好处:
数据装载、数据访问、数据存档、
数据删除、数据监控、数据存储、
当结构相似的数据被分到多个数据的物理单元时,数据便被分区了。任何给定的数据单元属于且仅属于一个分区。
;分区; 分区
有多种数据分区的标准:
时间
业务范围
地理位置
组织单位
所有上述标准
数据分区的标准是完全由开发人员来决定的。然而,在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部分。; 分区
人寿保险公司选择时间和保险种类,将数据分区为以下物理单元:
2000年健康索赔
2001年健康索赔
2002年健康索赔
1999年人寿保险索赔
2000年人寿保险索赔
2001年人寿保险索赔
2002年人寿保险索赔
2000年意外伤亡索赔
2001年意外伤亡索赔
2002年意外伤亡索赔; 分区
数据分区优点:
提高系统性能
“1996年家电类商品销售的季节分布如何?”
“每年的第一季度商品销售在各类商品上的分布情况是怎样的?”
? 提高灵活性
修改数据定义容易
不同年份的险种的定义描述是相互独立
; 数据仓库中的数据组织
粒度
分区
维度
数据仓库的数据组织形式
数据仓库的数据追加;维度
管理人员可以从客户的角度、产品的角度或者从供应商、地点、渠道
您可能关注的文档
- 实验五 食用白醋中醋酸浓度测定.ppt
- 实验五 静态法测定液体饱和蒸气压.doc
- 实验四 颗粒剂制备.ppt
- 实验室天平正确称量.ppt
- 实验探究 乙酸与乙醇制备.ppt
- 宠物犬与工作犬区别.doc
- 室内供暖系统试压、清洗和试运行.ppt
- 室内消火栓使用方法.ppt
- 客运专线铁路路基和无碴轨道技术讲义.ppt
- 室内污水和雨水系统组成和布置.ppt
- Windows Server网络管理项目教程(Windows Server 2022)(微课版)5.4 任务3 配置客户端访问web和ftp站点.pptx
- 2025年新高考语文复习 文言文18个虚词 课件.pdf
- 2025届高考英语二轮复习《形容词和副词》课件.pdf
- 2025年新高考语文复习 文言文阅读——概括分析文意客观题 课件.pdf
- Windows Server网络管理项目教程(Windows Server 2022)(微课版)2.1 知识引入.pptx
- 2024-2025学年高一英语必修第一册(人教版)同步课堂 Unit 1 Teenage Life:Period 1 Listening and Speaking【配套课件】.pdf
- Windows Server网络管理项目教程(Windows Server 2022)(微课版)5.1 知识引入.pptx
- 2024年(新高考Ⅰ卷)英语阅读理解真题讲评 课件.pdf
- 2025届高考日语二轮复习《作文写作技巧》课件.pdf
- 2025届高考语文二轮复习《作文审题立意》课件.pdf
最近下载
- 神经外科介入神经放射治疗技术操作规范2023版.pdf VIP
- 《IE基础知识培训》PPT课件.ppt
- 神经系统体格检查演示课件.ppt
- 《财经法规与会计职业道德》习题答案及解析.pdf VIP
- 租赁合同模板下载打印5篇.docx
- 专题1.2 全等图形和全等三角形(分层练习)-2023-2024学年八年级数学上册基础知识专项突破讲与练(苏科版).docx VIP
- 《时间序列分析》PPT课件(全).pptx
- 电大一网一《网络存储技术》形考任务三:基于iSCSI传输的配置与管理形考任务三:基于iSCSI传输的配置与管理(1).docx VIP
- 学校“四个一”突发事件应急处置工作机制范文(6篇).pdf VIP
- 饱和聚酯培训资料.ppt
文档评论(0)