讲数据仓库.pptVIP

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
讲数据仓库

OLAP的分析方法(二)钻取 按时间维向下钻取 按时间维向上钻取 60 OLAP的分析方法(三)旋转 如果需要比较同一个季度中不同年份的部门销售数据,那么应该如何调整上表的数据组织方式? OLAP的分析方法(三)旋转 练习一 已有2000至2009年间全国省会城市的中心城区和郊区的平均房价数据,请问该数据应如何用三维数据立方来表示? 如果想抽取广州地区2000至2009年中心城区和郊区的平均房价数据应如何对数据立方进行切片? 如果想抽取2005年全国省会城市的中心城区和郊区的平均房价数据应如何对数据立方进行切片? 年份 城市 地段 00 09 05 广州 南京 …… 中心城区 郊区 …… …… 广州 05 练习二 已知南京广州武汉三个省会城市的2008年平均房价和季度平均房价,请画出数据钻取的表格。 2008年平均房价 南京 广州 武汉 2008年平均房价 第一季度 第二季度 第三季度 第四季度 南京 广州 武汉 练习三 已知南京广州武汉三个省会城市2008年和2009年每个季度的平均房价。 如果要比较同一年不同季度的房价,那么应该如何列出数据? 如果要比较不同年同一季度的房价,那么应该如何列出数据? 2008年 2009年 第一季度 第二季度 第三季度 第四季度 第一季度 第二季度 第三季度 第四季度 广州 南京 武汉 第一季度 第二季度 第三季度 第四季度 2008 2009 2008 2009 2008 2009 2008 2009 广州 南京 武汉 课堂练习 已有2005至2009年间全国各大区域(华东、华南、华西、华北)不同收入人群(高中低)的家庭支出数据,请问该数据应如何用三维数据立方来表示? 如果想抽取华东地区2005至2009年不同收入人群的家庭支出数据,应如何对数据立方进行切片? 如果想抽取2007年全国各大区域的不同收入人群的家庭支出数据,应如何对数据立方进行切片? 如果想比较同一地区内不同收入人群的家庭支出,应如何列出数据? 如果想比较不同地区内同等收入人群的家庭支出,应如何列出数据? 课堂练习 请举例说明OLAP的多维数据结构,和切片、钻取、旋转三种分析方法。 课堂练习 请找出三种主流的数据仓库产品,并画表列出它们的生产厂商,产品特点,主要工具,价格范围, 不足之处。(3) 请举例说明OLAP的多维数据结构,和切片、钻取、旋转三种分析方法。(3) 请简述数据仓库的体系结构和各组成部分的功能。(2) 请简述数据仓库建设的基本步骤。(2) 第四讲 数据仓库 数据库与数据仓库 数据不一致 可频繁删除数据 存放短期数据(3个月内) 存在数据冗余 数据仓库概述 数据仓库与CRM有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。 利用数据仓库,企业可以对客户行为进行分析和预测,从而制定准确的市场策略、发现重点客户和评价市场性能。对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中包含数据仓库。 数据仓库的产生 早期的数据库主要支持联机事务处理 传统数据库不能满足决策支持对数据库的要求 (1)事务处理和分析处理的性能特性不同 (2) 数据集成问题 (3)历史数据问题 (1)事务处理和分析处理的性能特性不同 所有联机事务处理强调的是数据更新处理性能和系统的可靠性。在事务处理环境中,用户的行为特点是数据的存取操作频率高,每次操作处理的时间短。 在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的决策支持(DSS)应用程序可能需要连续几个小时,从而消耗大量的系统资源。 联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。 (2)数据集成问题 DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。 造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。 (3)历史数据问题 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。 但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间上都有了更高的要求,而事务处理环境难以满足这些要求。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进

文档评论(0)

phltaotao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档