- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基干数据仓库基础上数据挖掘技术探究
基于数据仓库基础上的数据挖掘技术研究 [摘 要]数据仓库和数据挖掘技术是信息技术领域的热门话题,两者的结合已成为人类处理和分析海量信息的有力武器。基于数据仓库基础上的数据挖掘技术是一种对数据仓库中的数据进行深层次加工和处理的过程,也是一种实现数据仓库决策价值的方法和工具
[关键词]数据仓库;数据挖掘
中图分类号:G26 文献标识码:A 文章编号:1009-914X(2016)21-0162-02
1、 引言
计算机应用技术已经深入到各行各业,用户除了用计算机处理日常事务外,更需要从大量数据中归纳出业务的规律性和发展趋势,以支持决策的制定。数据仓库就是在这样一种背景下产生的,如何将这些海量的数据从数据仓库中提取出来,并转为有用的信息,仍然是一个亟待解决的问题。为此,人们进行了多方面的研究尝试,数据挖掘技术就是其中的一种新技术。从目前的形势看,数据仓库和数据挖掘技术紧跟互联网的发展,成为企业在信息社会中获胜的又一关键
2、 数据仓库
2.1 数据仓库概念和基本特征
数据仓库,是为企业制定决策过程,提供所有类型数据支持的战略集合。斯坦福大学数据仓库研究小组是这样定于数据仓库的:“数据仓库是继承信息的存储中心,这些信息可用于查询或分析”;公认的数据库之父比尔“数据仓库是面向主题的、集成的、相对稳定的、反映时间变化的数据集合,用以支持管理决策。”
基本特征:
(1)面向主题:操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据库进行决策时所关心的重点方面,一个在较高层次将数据归类的标准,每一个主题对应一个宏观分析领域。基于主题的数据被划分为各自独立的领域,每个领域有自己互补交叉的逻辑内涵
(2)集成:是指原始数据进入数据库前,将来自于分散的操作型数据,从原来的数据中抽取出来,必须先经过加工与集成,统一与综合之后才能进入数据仓库,并将原始数据的结构从面向应用转换到面向主题,消除原数据中的不一致,以保证数据仓库内的信息是关于整个企业的一致的全局信息
(3)稳定:某个数据进入数据仓库后,一般情况下将被长期保留,是不可更新的,主要是进行数据查询,修改、删除操作很少,通常只需要定期进行加载、刷新。时值数据仓库在某一时刻供用户分析处理是不能进行数据更新操作的,而不是说数据仓库在其整个生命中数据集和总是不变的
(4)随时间变化:数据仓库是随时间而变化的,传统的数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,是数据仓库内的历史数据,数据时限长,且数据包含时间项属性
2.2 数据仓库的体系结构
数据仓库的所有部分结合在一起的结构就是体系结构。它即是一种富有哲理性的方法,也是一种技术,数据和信息从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库中已有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决,这使得决策查询更容易、更有效
数据仓库应包括三个组成部分:
(1)数据获取:这个部分负责从外部数据源获取数据。数据被区分出来,进行拷贝或重新定义格式等处理后,准备载入数据仓库
(2)数据存储:这个部分负责数据仓库的内部维护和管理,提供的服务包括数据存储的组织、数据的维护、数据的分发、数据仓库的例行维护等
(3)信息传递:信息访问部分数据仓库的前端,面向不同种类型的最终用户,这里主要有桌面系统的各种工具组成
3.数据挖掘
3.1 数据挖掘的概念
数据挖掘是一个从大量数据中挖掘或抽取出未知的、有价值的模式或规律等知识的复杂过程,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象地描述。可以利用图形、文字、表达式等方式;所谓处理过程是指数据挖掘是一个多步骤对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的再处理及知识学习算法的优化,不断提高学习效率。所谓可信、新颖和具有潜在作用是指通过数据挖掘,从当前数据仓库所发现的模式必须有一定的正确程度和新颖性,否则数据挖掘就毫无根据作用。虽然只是发现可以对已有的知识进行验证,但发现新的知识往往更重要,或对已有的知识进行拓展得到更全面、更具有实际意义的知识。发现的知识必须经过实践的检验,并在实际应用中发现问题,对学习数据和策略进行修改,重新进行学习从而得到更精确的知识
3.2数据挖掘系统的组成
数据挖掘系统中主要的输入是源于数据仓库的数据、分析员的指导,以及存储数据挖掘系统知识库中的知识和经验。从数据仓库中选择的数据在知识发现引擎里处理,引擎中提供了大量的抽取
文档评论(0)