数据仓库2详解.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库2详解

DWS是多种技术的综合体,它由数据仓库(DW)、数据仓库管理系统(DWMS)、数据仓库工具三个部分组成。 DW居于整个系统的核心地位,是信息挖掘的基础。 DWMS负责整个系统的运转,是整个系统的引擎。 DW工具则是整个系统发挥作用的关键,只有通过高效的工具,DW才能真正发挥出数据宝库的作用。 元数据为决策人员访问DW提供直接或辅助信息; 元数据描述和管理从DBS到DW的数据转换; 元数据要管理DW中的数据。 元数据在DW的上层,并且记录DW中对象的位置。典型的元数据包括: 数据仓库表的结构 数据仓库表的属性 数据仓库的源数据(记录系统) 从记录系统到数据仓库的映射 数据模型的规格说明 抽取日志 访问数据的公用例行程序 元数据管理工具是数据仓库系统的一个重要组成部分。由于分析需求的多变性,导致数据仓库的元数据也会经常变化,对元数据的维护管理比传统数据库对数据字典的管理要复杂和频繁得多。因此,需要一个专门的工具软件来管理元数据。 DW是进行决策分析的基础,它解决了信息的存储问题,提高了数据的存储效率,但还需要结合数据分析技术,才能真正为决策服务。 在DWS的整个结构中,为用户服务的前端工具是最直观、最能让用户感受到DW环境的部分,因此前端工具必须要能够被有效地集成到新的数据分析环境中去。 近年常用的一些DW分析工具主要有:OLAP、数据挖掘、统计分析、联机挖掘等,还有一些数据查询工具。 2.数据分析的模型与相应工具 数据分析的四种模型 绝对模型:属于静态数据分析,它通过比较历史数据和行为来描述过去发生的事情。 解释模型:属于静态数据分析,它通过多层次的综合路径层层细化,找出事实发生的原因。 思考模型:属于动态数据分析,它通过引入一组具体变量或参数后,预测将来会发生什么。 公式模型:最高级动态数据分析,它知道需要引入哪些变量或参数以及所产生的结果。 数据分析的三种工具类型 查询工具: 指对分析结果的查询,而不是记录级的查询。 验证型工具: 从数据仓库中发现事实,实现数据分析的前三种模型。 挖掘型工具: 从大量数据中发现数据模式,预测趋势和行为,实现第四种分析模型。 3.联机分析处理(OLAP) OLAP是近年来十分流行的DW主要的前端支持工具。 OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念。 OLAP也可说是多维数据分析工具的集合,这种工具用于帮助高级用户从精细、多维、复杂的角度分析数据。 OLAP的维分析视图冲破了物理的三维概念,采用了旋转、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构。 用户不再需要编写复杂的查询语句,只要借助OLAP系统的用户图形界面,就可直观的深入了解包含在数据中的信息。 数据集市 数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。且各数据集市间应协调一致,满足整个企业分析决策的需要。 一般在某个业务部门建立数据集市,满足其分析决策的需要,称为部门级数据仓库。 独立的数据集市 如果一个数据集市不依赖于中央数据仓库,则这个数据集市为独立数据集市。 独立数据集市可能会造成各数据集市中的数据不一致、形成信息孤岛、维护困难等问题。 从属的数据集市 从数据仓库中获得数据,并根据部门的分析领域和查询功能进行重新组织和优化的数据集市称为从属数据集市。 保证了各个数据集市间和数据仓库中数据的一致性。 第1天,通晓本质上进行操作型处理的几个系统。 第2天,对数据仓库中第一个主题领域的最初几个表载入数据,用户开始发现数据仓库和分析处理。 第3天,更多的数据载入数据仓库,并且随着数据量增大,并有了在时间维上观察数据的历史基础。 第4天,随着更多的数据载入数据仓库,一批存储在操作型环境的数据被适当地放入数据仓库中。各种各样的DSS应用出现了。 第5天,部门数据库(数据集市,或OLAP )开始兴起,各部门发现通过把数据从数据仓库输入它们自己的部门处理环境,会使它们的处理既便宜又容易。 第6天,部门系统出现繁忙,得到部门数据比获得数据仓库的数据更便宜、更快、更容易。很快最终用户就放弃数据仓库的细节,去进行部门处理。 第n天,这种体系结构得到充分发展。生产系统的原始集合中只剩下操作型处理。数据仓库具有丰富的数据,并有一些数据仓库的直接用户和许多部门数据库。 从第1天到第n天的进化需要很长的时间,通常需要几年。并且在从第1天到第n天的处理过程中,DSS环境在不断地提高和职能化。 数据仓库的实现策略 自顶向下方法:从全面设计整个企业数据仓库模型开始 优点: 系统的解决方法,能最大限度地减少集成问题。 缺点: 费用高、费时长,缺乏灵活性, 因为整个企业的共同数据仓库模型要达到一致很困难。 首先建造

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档