- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章-数据仓库环境精要
* * * 对活样本中记录的选取一般是随机的,必要时可采用一个判断样本 最大的好处—存取效率非常高,误差在可接受范围 在活样本数据库中要想取得高精度的统计结果,需要将要求形式化, 并在活样本数据库上进行反复处理 元数据 元数据是关于数据的数据 元数据使最终用户或DSS分析员能够探索各种可能性 元数据与指向数据仓库内容的索引相似,处于数据仓库的上层,并且记录数据仓库中对象的位置 元数据存储的记录: 程序员及DSS分析员所知的数据结构 数据仓库的源数据 数据进入数据仓库时进行的转换 数据模型 数据模型与数据仓库的关系 抽取数据的历史记录 审计与数据仓库 能对数据仓库进行审计,但不该审计,原因在于: 原先在数据仓库中没有的数据会突然出现 当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化 当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化 会使数据粒度处于最低的级别上 * * * * * 所有的特性之中,集成是最重要的. 但多个应用之间在编码,命名习惯,物理属性,属性度量单位等方面的一致性很难保证一致性. 这样就必须采用方法消除应用层的许多不一致性, 确保数据仓库中的表述的一致性 * * 这是第一章我们讲过的集成的例子 * 数据仓库中的数据很少更新, 保存了数据的历史状况 * 时变性的意思是数据仓库中的每个数据单元只是在某一时间是准确的 任何情况下,记录都包含某种形式的时间标志用以说明数据在那一时间是准确的 * 数据仓库环境中数据存在不同的细节级 数据一旦过期,就由当前细节级进入早期细节级. 综合后的数据由当前细节级进入轻度综合级,然后由轻度综合级再进入高度综合级 * * 通过一个公共关键字联系起来,可以存储在不同介质上 * 可能有多个DBMS管理,或者根本没有DBMS管理 * 当数据围绕主题组织时,每个关键字都有一个时间元素 * * * * * 因而, 最佳解决办法是在企业中采用多重粒度级的形式 * * * 以天进行综合---对一个顾客的一个帐号每天的所有活动进行合计,并在一天一天的基础上进入数据仓库 * * * 不是在每天的基础上组织的,是以较长时间生成的,它是操作型数据间隔一段时间的快照 * 依据二个或多个简单直接文件可以生成一个连续文件,连续文件可以通过把一个快照追加到一个以前生成的连续文件上来创建 第2章 数据仓库环境 数据仓库的定义 以1992年W.H.Inmon出版《Building the Data Warehouse》为标志,数据仓库速度发展起来,Inmon也被誉为 “数据仓库之父”。 W.H.Inmon对数据仓库的定义是:“数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。 数据仓库是体系结构化环境的核心,是决策支持系统DSS处理的基础 数据仓库的特征 数据仓库是面向主题 (Subject-Orientation) 的; 数据仓库是集成 ( Integration ) 的; 数据仓库是稳定/非易失性 ( Nonvolatile ) 的; 数据仓库是随时间变化 ( Time Vagrancy ) 的; 数据仓库是信息的概括和聚集。 面向主题 汽车 人寿 健康 意外伤亡 操作型环境 应 用 顾客 保险单 保险费 索赔 数据仓库 主 题 集成 操作型环境 应用A m,f 应用B 1,0 应用C x,y 应用D 男,女 数据仓库 m,f 编码 应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds 管道cm 属性度量 应用A 描述 应用B 描述 应用C 描述 应用D 描述 应用A char(10) 应用B dec fixed(9,2) 应用C pic ‘9999999’ 应用D char(12) 多重信息源 描述 char(12) 冲突的键码 集成 ? 操作型环境 数据仓库 J Jones 女 1945年7月20日 。。。。。 J Jones 去年有两张罚单 一次大事故 。。。。。 J Jones Main大街123号 已婚 。。。。。 J Jones 两个孩子 高血压 。。。。。 人寿保险 汽车保险 房产保险 健康保险 J Jones 女 1945年7月20日出生 去年两张罚单 一次大事故 已婚 两个孩子 高血压 。。。。。。 顾客 非易失性 插入 删除 插入 修改 删除 访问 修改 访问 数据的逐个记录方式处理 数据的批量载入/访问 操作型环境 数据仓库 随时间变化 操作型环境 数据仓库 时间期限:当前到60—90天 记录更新 键码结构可能包括也可能不 包括时间元素 时间期限:5—10年 数据的复杂快照 关键字结构
您可能关注的文档
- 人教版地理八下《特别行政区──香港和澳门》ppt课件要点.ppt
- 人教版小学2-6年级日积月累要点.doc
- 第2章 设计2精要.ppt
- 人教版小学一年级数学下册《位置的复习课》ppt课件(邢庆云)要点.ppt
- 人教版小学二年级下册语文知识点汇总要点.doc
- 第2章 质谱法精要.ppt
- 人教版小学三年级科学上册谁流得更快一些要点.ppt
- 第2章 质谱法2精要.ppt
- 人教版小学三年级语文上册说课标说教材知识树-副本要点.ppt
- 人教版小学二年级美术下册全册教案要点.doc
- 第5课(短撇)课件 2025书法三年级上册北师大版.pptx
- 精品解析:北京市第十九中学2023-2024学年八年级下学期期中数学试题(原卷版).docx
- 精品解析:北京市第十九中学2023-2024学年八年级下学期期中数学试题(解析版).docx
- 第5课(三点水)课件 2025书法四年级下册北师大版.pptx
- 第5课(提)课件 2025书法三年级下册北师大版.pptx
- 某厨房工程设计合同8篇.docx
- 第5课(左点和长点)课件 2025小学生书法通用版一年级.pptx
- 精品解析:北京市第五十五中学2024-2025学年高三上学期12月月考化学试题(解析版).docx
- 酒水经营商铺租赁合同6篇.docx
- 苗木培育工程施工合同7篇.docx
最近下载
- 永辉超市营运资金管理存在的问题及对策分析_20250126_225505.docx VIP
- 第四章 多彩的光之凸透镜专题(课件)中考物理一轮复习(沪科版).pptx VIP
- 经皮内镜下胃(空肠)造口术临床应用中国专家共识(2024版).docx VIP
- 机械制图 全套课件.ppt
- 民航旅客服务从业人员劳动竞赛试题库400题(供参考).docx
- 《TM-261A、461A使用说明书》.pdf
- 工业园物业服务工业园安全秩序管理方案.doc
- 2024年计量专业实务与案例分析二级参考答案.docx
- 《学前教育法》知识考试题库100题(含答案).docx
- 培训模板(北极猫修改)新手建议用这个.xls VIP
文档评论(0)