- 1、本文档共30页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(知识管理)数据仓库
* * * * * * * * * * * * * * * * * 阿尔茨海默症防治相关知识埃及的金字塔有建造方法动画艾司洛尔在神经外科重症中的应用二级二班防溺水等安全教育 Data Warehouse 数据仓库 概念、设计及应用 报告人:曹顺良 2001年11月12日 提纲 1.为什么要建立数据仓库 2. 数据仓库的概念及特性 3. 数据仓库的结构 4. 数据仓库的设计 5. 数据仓库的开发过程 6. 数据仓库的典型应用 事务处理环境不适宜DSS应用的原因 事务处理和分析处理的性能特性不同 操作型处理对数据的存取操作频率高而每次操作处理的时间短; 在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。 数据集成问题 数据动态集成问题 历史数据问题 数据的综合问题 抽取程序 用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。 用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。 蜘蛛网问题 数据缺乏可信性 数据无时基 数据算法上的差异 抽取的多层次 外部数据问题 无起始的公共数据源 生产率低 根据全部数据生成企业报表 定位数据需要浏览大量文件 抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。 数据转化为信息的不可行性 数据没有集成化 缺乏将数据转化为信息所需的历史数据 体系结构设计环境的层次 数据操作层只保存原始数据并且服务于高性能事务处理领域; 数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在; 数据的部门层几乎只存放导出数据; 在数据个体层中完成大多数启发式分析 操作层 原子/数据仓库层 部门层 个体层 数据仓库的概念 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。 [William H.Inmon] 与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。 数据仓库的特性 面向主题 典型的主题领域:客户;产品;交易;帐目 集成的 数据提取、净化、转换、装载 非易失的 数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新 随时间的变化性 数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年); 数据仓库中的数据是一系列某一时刻生成的复杂的快照; 数据仓库的键码结构总是包含某时间元素。 数据仓库的结构 早期细节级 当前细节级 轻度综合级 数据集市 高度综合级 元数据 操作型转换 数据仓库设计中的几个重要概念 ETL ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 元数据 关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 分割 结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。 典型的元数据包括: 数据仓库表的结构 数据仓库表的属性 数据仓库的源数据(记录系统) 从记录系统到数据仓库的映射 数据模型的规格说明 抽取日志 访问数据的公用例行程序 数据仓库设计中的几个重要概念 (续) Data Mart 数据集市 -- 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。 data model 数据模型 -- (1)逻辑数据结构,包括由DBMS为有效进行数据库处理提供的操作和约束;(2)用于表示数据的系统(例如,ERD或关系型模型)。 artifact 人工关系 --在DSS环境中用于表示参照完整性的一种设计技术。 企业数据模型到数据仓库数据模型的转换 除去纯粹用于操作型环境的数据 在企业键码结构中增加时间元素 增加导出数据 创建人工关系 数据模型的规范化/反规范化 为了减少程序在表中的跳转、节省I/O,需将多个相关的表合并; 引入冗余数据; 当访问概率有很大悬殊时,要对数据做进一步分离; 在物理数据库的设计中引入导出数据
您可能关注的文档
- (教学研究)乳腺癌护理查房.ppt
- (教学计划)第五章 生产作业计划.ppt
- (建筑)big事务所.ppt
- (教学计划)驾驶员及交通知识安全培训.ppt
- (教育)家禽的解剖生理_动物解剖学.ppt
- (教育)三相异步电动机电气控制课件.ppt
- (教育)染料敏化太阳电池TiO2光阳极研究进展.ppt
- (教育学)两个经常性工作课件.ppt
- (教育)第四章 昆虫分子科学.ppt
- (教育学)幼儿园活动设计第五章 主题活动设计.ppt
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
最近下载
- 二年级家长会班主任发言稿 VIP
- 2023-2024学年上海市位育中学八年级上学期期中考试英语试卷含详解.docx VIP
- 【自做】白雪公主PPT正常版.ppt
- 名著阅读《群英会蒋干中计》课件精品课件(选自罗贯中《三国演义》;34页).pptx VIP
- 2023-2024学年北京某中学八年级上学期期中考试英语试卷(含详解).pdf VIP
- 手术患者意外伤害预防.pptx
- 2024年初中信息技术学业水平合格性考试题库含答案.pdf
- 2024-2025学年小学科学一年级上册(2024)教科版(2024)教学设计合集.docx
- 2024全国中考语文试题分类汇编:记叙文阅读.pdf VIP
- 英语国家概况100问及答案.doc
文档评论(0)