数据挖掘和其它学科关系.PPT

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘和其它学科关系

第13章 数据仓库和数据挖掘 本章导读: 信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,一般的事务处理已不能满足应用的需要,企业界需要在大量数据基础上的决策支持,数据仓库(Data Warehouse)与数据挖掘技术的兴起满足了这一需求,了解数据仓库与数据挖掘方面的知识,对在当今数据爆炸时代是非常有益的。 知识要点: SQL Server登录 ?数据仓库 ?数据挖掘 13.1 数据仓库 本章导读: 管理信息系统的成功应用积累了各行各业的大量数据,基本上满足了用户对数据存储、查询和统计的需要,但数据库容量的指数增长和对数据库应用的贫乏形成了强烈的反差,导致了大量的数据垃圾出现,无法从中提取内在关联信息或决策支持数据,如同奈斯比特在《大趋势》中所说“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿”。20世纪80年代后期出现了数据仓库思想的萌芽出发点就是解决如何从繁杂数据中提取决策数据来支持企业领导和决策服务的数据库技术。 13.1.1数据仓库发展历程 1.开始阶段(1978-1988) 2.全企业集成(Enterprise Intergration,1988) 3.企业级数据仓库(EDW,1991) 4.数据集市(1994-1996) 5.争吵与混乱(1996-1997) 6.合并(1998-2001 7.数据仓库的现状和趋势) 13.1.2 数据仓库特征 1.数据仓库中的数据是面向主题的 2.数据仓库中的数据是集成的 3.数据仓库中的数据是不可更改的 4.数据仓库中的数据是随时间不断变化的 13.1.2 数据仓库特征 1.数据仓库中的数据是面向主题的 2.数据仓库中的数据是集成的 3.数据仓库中的数据是不可更改的 4.数据仓库中的数据是随时间不断变化的 13.1.3 数据仓库组成 1.数据源 2.数据抽取工具 3.元数据 4.访问工具 5.数据集市(Data Marts) 6.数据仓库管理 7.信息发布系统 13.1.4 数据仓库架构 1.两类基本数据仓库架构 数据仓库架构有两种:一类是Inmon提出的CIF架构(Corporate Information Factory,即企业信息工厂),一类是Kimball提出的MD架构(Mutildimensional Architecture,即多维体系结构)。 (1)CIF架构主要包括集成转换层(IT)、操作数据存储(ODS)、数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。 (2)MD架构主要包括数据准备区(Staging Area)和数据集市。MD的数据准备区在功能上相当于 CIF 的staging area+EDW,主要负责数据准备工作,是一致性维表的产生、保存和分发的场所。数据集市主要是采用一致性维表来完成维度建模,多个数据集市一起合并成“虚拟”数据仓库,数据集市可以是存在于一个数据库中,也可以分布存储在不同数据库中。 13.1.4 数据仓库架构 2.解析CIF数据仓库架构 13.1.5 数据仓库系统的设计与开发 1.建立一个数据仓库系统的参考步骤 (1)收集和分析业务需求。用户需求往往不确定,在数据仓库环境中,决策支持分析人员往往是企业或事业组织的中上层管理人员,他们对决策分析的需求不能预先做出规范说明。 (2)建立数据模型和数据仓库的物理设计。通过设计数据仓库的概念模型、逻辑模型和物理模型,可以得到企业或事业数据的完整而清晰的描述信息。 (3)定义数据源 。也叫做定义记录系统,记录系统是一个内容正确、在多个数据源间起决定作用的操作型数据源。它的特点是:数据最完整、最准确、最及时,结构最适合于数据仓库,并且与外部数据源最为接近。 (4)选择数据仓库技术和平台。技术和平台选型对建设数据仓库来说非常重要,而且一旦选定,在数据仓库系统实施完成后将很难改变。 (5)从操作型数据库中抽取、清洗及转换数据到数据仓库。 (6)选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件。 (7)更新数据仓库 。确定数据仓库的更新策略,开发或配置数据仓库更新子系统,实现数据仓库数据的自动更新。 13.1.5 数据仓库系统的设计与开发 2.数据仓库系统的生命开发周期 数据仓库系统的开发设计是一个动态的反馈和循环过程。 一个数据仓库系统包括两个主要部分:一是数据仓库数据库,用于存储数据仓库的数据;二是数据分析应用系统,用于对数据仓库数据库中的数据进行分析。因此,数据仓库系统的设计也包括数据仓库数据库的设计和数据仓库应用的设计两个方面。 一个数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高,这个过程也叫数据仓库系统的生命周期。 13.1.5

文档评论(0)

wumanduo11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档