- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
浅谈数据仓库和数据挖掘技术
1、数据仓库
信息技术的不断推广应用,将企业带入一个信息爆炸的时代。每时每刻都有
潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息
的处理类型主要分事务型(操作型)处理和信息型(分析型)处理两大类。事务
型处理也就是通常所说的业务操作处理。这种操作处理主要是对管理信息进行日
常的操作,对信息进行查询和修改等,目的是满足组织特定的日常管理需要。在
这类处理中,管理者关心的是信息能否得到快速的处理,信息的安全性能否得到
保证,信息的完整性是否遭到破坏。信息型处理则是指对信息做进一步的分析,
为管理人员的决策提供支持。
1.1数据仓库的定义
业界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Buildingthe
DataWarehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、
不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经
营管理中的决策制定。
数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强
大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发
展规律的决策。因此,在很多场合,决策支持系统也成了数据仓库的代名词。建
立数据仓库的目的是把企业的内部数据和外部数据进行有效的集成,为企业的各
层决策和分析人员使用。
1.2数据仓库的特点
从W.H.Inmon关于数据仓库的定义中可以分析出数据仓库具有这样一些
重要的以下特性。
1.2.1面向主题性
面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据
都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策
者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。
1.2.2集成性
所谓集成性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是
建立数据仓库的关键步骤。
1.2.3时变性
所谓时变性是指数据仓库中的信息并不只是关于企业当时或某一时点的信
息,而是系统地记录了企业从过去某一时点到目前的数据,主要用于进行时间趋
势分析。
1.2.4非易失性
数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。
1.3数据仓库的技术体系结构
一个数据仓库系统的技术体系结构总体来说包括后台数据预处理,数据仓
库,数据管理和数据仓库的前台查询服务三大部分。
数据仓库中的数据来自企业内部不同的业务系统甚至企业外部的商业数据
库,这些数据库对于数据仓库来说被称为数据源。数据源中的数据在数据的组织
方式、数据格式等许多方面与数据仓库对数据的要求有很大的差别,因此这些数
据不可能直接载入数据仓库的数据库中,为此必须进行数据的预处理操作。数据
的预处理包括数据源的定义、从数据源提取数据到预处理数据区(数据准备区)、
在数据准备区中对数据进行净化处理、作必要的转换、再将数据加载到数据仓库,
等等。实现这部分功能的是数据仓库的后台数据预处理部分。
数据仓库的应用服务部分提供了各种应用工具,使用这些工具可以对数据仓
库中的数据进行复杂的查询分析和知识挖掘等等。没有一种工具可以满足所有的
应用需求。可选择的工具大致分为:数据挖掘工具:数据挖掘是基于人工智能来分
析数据的一种技术,通过对数据仓库中数据的分析去发现一些用户可能没有想到
的模式和数据关系。特别查询工具:特别查询提供了一种能力,使得分析人员可
以提交一些特别的问题,并产生相应的结果。在线分析处理(OLAP,On-Line
AnalyticalProcessing):在线分析处理以数据立方体或多维的方式来查看数据,允
许用户进行钻取以获得更详细或更概括的数据,或者对不同的“维”如时间、商品
等进行切片操作。OLAP工具可用于对商业问题进行分析,是最常用的辅助决策
工具。
2、数据挖掘
2.1数据挖掘的概念
数据挖掘是指从大量的数据中提取有用的信息和知识的过程。所发现的信息
和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的
知识。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等。
数据挖掘也可视为是一类深层次的新型数据分析方法,它与传统的数据分析
的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘信息、发现
文档评论(0)