- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数 据 仓 库 概 论
—数据仓库与数据挖掘
数据仓库与数据挖掘
在信息化时代来临、互联网高速发展的今天,社会已处于数据爆炸的状态下。当数据量极度增长时,人们感到面对信息海洋像大海捞针一样束手无策,而这些存在的数据可以被广泛的使用,并且也迫切需要将这些数据转换成有用的信息和知识。因此,需要一种从大量数据中去粗存精、去伪存真的技术。数据挖掘技术就是人们长期对数据库技术进行研究和开发的结果,是数据库、数据仓库或其他信息库中的知识发现,是信息技术自然演化的结果。
一、数据仓库
(一)什么是数据仓库
数据可以存放在不同类型的数据库中,最近出现的一种数据库结构是数据仓库。是从多个数据源收集数据,存储于一个统一的数据模式下的数据体,通常驻留在单一站点,以支持管理决策。首先它是面向主题的,每一行业甚至企业建立自己的数据仓库,它关注决策者的数据建模与分析。其次它集成存储了整个企业各部门各时期的数据,因此它是时变的和非易失的。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。而在实际数据挖掘中经常使用的是数据集市,它面向部门,关心某一主题,因此更灵活和实用。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。
(二)数据仓库的数据组织
在数据仓库发展过程中,适当的数据组织非常重要,同样大小的数据仓库采用不同组织形式,完成数据分析和处理的时间会有所不同,它有以下不同的组织形式。简单堆积文件组织方式,是将每天由数据库提取并处理后的数据逐天存储起来。在定期综合文件组织方式中,数据存储单位被分成日、周、月、季度、年等多个级别,数据被逐一的添加到每天的数据集合中。当一个星期结束,每天数据被综合成周数据,周数据被综合成月数据,以此类推。后者的数据量比前者大大减少,但由于数据被进行高度的综合,造成数据的细节在综合中丢失。而连续文件是综合前两者的优点,既保留细节信息,又大大减少数据量。例如:它在进行数据存储过程中,可以将相关两个数据表中相同的表项合并,对于两表中不同的表项分别记录。但是,连续文件增加的合并列也会给查询带来一定的不便。商业决策在一个适当的时间进行趋势、相关分析等工作都必须求助于组织数据的新技术。所以对于大型的数据仓库来说,合理有效的数据组织显得尤为重要。
(三)数据仓库的物理结构
物理结构可以是关系数据库、数据立方体。目前,数据立方体的物理实体一般为关系数据库中的表,从观察数据的特定角度,把某一类属性的集合称为一个维,每个维都有一个表与之相关联。在数据立方体上可以进行上卷或下钻等OLAP(联机分析处理)操作,即对不同的数据层次进行概化或细化。OLAP 是面向市场的,用于知识工人的数据分析。其目的是使企业的决策者能灵活地操纵企业的数据,以多维的形式从多方面多角度来观察企业的状态、了解企业的变化,通过一致、快速、交互地访问各种可能的信息视图,帮助知识工人掌握数据中存在的规律,实现对数据的归纳、分析和处理,完成相关的决策。数据仓库系统一般都支持OLAP 的基本操作,也可以认为是一种扩展了的SQL操作。因此,用SQL语句可实现OLAP 操作。
但是SQL 查询绝不能代替数据挖掘。用SQL查询可以从关系数据库中知道上季度卖出了什么商品,卖出了多少商品,上月每个部门的总销售量等浅层次的知识,但不可以预测新顾客的信用风险,发现商品销售变差的原因,哪种商品的销售出人意料,哪些商品的销售具有关联风险性等潜在的知识。
二、数据挖掘
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些信息和知识可以存放在数据库,数据仓库或其他信息库中,是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。准确的说,数据挖掘是数据仓库中的数据集合,在挖掘算法的作用下将数据转化成相应的信息,最后,在信息输出时对信息进行度量和滤除。数据挖掘基于的数据库类型有:关系、面向对象、事务、演绎、时间和时间序列、多媒体、空间、遗产、文本、Web型以及新兴的数据仓库等。面向对象的数据库是基于面向对象的程序设计范例,对象可以是雇员、商品等,而涉及一个对象的数据和代码被封装在一个单元中,对象可以与其他对象或数据库系统通信。空间数据库涉及空间的信息,如地理、医疗和卫星图像数据库等,数据挖掘可以发现描述不同海拔高度山区的气候,或根据城市离主要公路的距离描述城市贫困率的变化趋势。通过时间和时间序列数据库,数据挖掘可以根据数据库中存储的随时间变化的信息,发现对象演变特征和对象变化
文档评论(0)