- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 数据挖掘的基本概念
随着数据库技术的不断发展及数据库管理系
统的广泛应用,数据库中存储的数据量急剧增
大,在大量数据背后隐藏着许多重要的信息,如
果能把这些信息从数据库中抽取出来,将为公司
创造很多潜在的利润。这种从海量数据库中挖掘
信息的技术,就称之为数据挖掘技术。美国SA S
软件研究所将数据挖掘定义为:“按照既定的业
务目标,对大量的企业数据进行探索、揭示隐藏
其中的规律性并进一步模型化的先进、有效的方
法[1]。”数据挖掘能够对将来的趋势和行为进行预
测,从而很好地支持人们的决策。比如,通过对
公司整个数据库系统的分析,数据挖掘可以回答
诸如“哪些客户最有可能购买我们公司的什么产
品,为什么?”等类似问题。数据挖掘还能够解
决一些很消耗人工时间的传统问题,因为它们能
够快速地浏览整个数据库,找出一些专家们不易
察觉的极有用的信息。数据挖掘的一般步骤如
下:问题理解和提出→数据准备→数据整理→建
立模型→评价和解释。
(1) 问题理解和提出:在开始数据挖掘之前
最基础的就是理解数据和实际的业务问题,在这
个基础之上提出问题,对目标有明确的定义。
(2) 数据准备:获取原始的数据,并从中抽取一
定数量的子集,建立数据挖掘库,其中一个问题
是,如果企业原来的数据仓库满足数据挖掘的要
求,就可以将数据仓库作为数据挖掘库。(3)
数据整理:由于数据可能是不完全的、有噪声
的、随机的,有复杂的数据结构,就要对数据进
行初步的整理,清洗不完全的数据,做初步的描
述分析,选择与数据挖掘有关的变量,或者转变
变量。(4) 建立模型:根据数据挖掘的目标和
数据的特征,选择合适的模型。(5) 评价和解
释:对数据挖掘的结果进行评价,选择最优的模
型,作出评价,运用于实际问题,并且要和专业
知识结合对结果进行解释。
以上的步骤不是一次完成的,可能其中某些
或者全部要反复进行。
2 粗糙集的基本概念
1982 年,波兰学者Z.Pawlak 提出了粗糙集
理论,它是一种刻划不完整性和不确定性的数学
工具,能有效地分析不精确、不一致(inconsistent)、不完整(incom plete)等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律[2]。粗糙集理论是建立在
分类机制基础上的,它将分类理解为在特定空间
上的等价关系,而等价关系构成了对该空间的划
分。粗糙集理论将知识理解为对数据的划分,每
一被划分的集合称为概念。粗糙集理论的主要思
想是利用已知的知识库,将不精确或不确定的知
识用已知知识库中的知识来(近似) 刻画。该理
论与其他处理不确定和不精确问题理论的最显著
的区别是它无需提供问题所需处理的数据集合之
外的任何先验信息,所以对问题的不确定性的描
述或处理可以说是比较客观的。
定义1 信息系统S 可表示为S = (U ,A ,V ,f),
其中U 是对象的非空有限集合,称为论域;A
是属性的非空有限集合;V =∪a∈A V a,V a 是属
性A 的值域, f:U×A →V 是一个信息函数,它
为每个对象的每个属性赋予一个信息值。如果属
性集A 可以分为条件属性集C 和决策属性集D ,
即C∪D = A ,C∩D =Ф,则该信息系统称为决
策系统或决策表,其中D 一般只含有一个属性。
定义2 在知识表达系统S 中,对于一属性集
P∈A ,对象x,y∈U ,二元等价关系IN D (P)= {
(x,y)∈U ×U |所有的a∈ P,f(x,a)= f(y,a)}称
为S 的不可分辨关系。不可分辨关系是一个等价
关系,通过一个不可分辨关系,可以得到一个决
策系统的划分。
定义3 给定信息系统S = (U ,A ),B ∈A ,
对B 中的属性a,如果IN D (B )≠ IN D (B - {a})
,则称属性a 是必要的(Indispensable),否则称a
是不必要的(D ispensable)。
3 粗糙集在数据挖掘中的应用
近年来,粗糙集理论在数据挖掘中的应用取
得了较大的进展,基于粗糙集理论的方法逐渐成
为数据挖掘主流方法之一。基于粗糙集理论的数
据挖掘系统一般都由数据预处理、基于粗糙集理
论或其扩展理论的数据约简、决策算法等组成。
其大概思想是:首先通过粗糙集对信息表中的数
据缺损进行处理;然后根据已定义的可辩识距
阵,通过属性简约算法对信息表中的数据进行属
性简约和知识发现;最后根据值约简等减少属性
和个体数目,最终提取规则并将之应用于新对象
的分类。
(1) 数据预处理在现实世界的很多情况
下,我们拿到的第一手数据都会存在噪音数据、
空缺数据和不一致性数据等我们不希望出现的数
据,甚至因为数据库过于强大,这样的数据多达
数千兆字节。因此,不得不去想一个问题:“怎
样处理数据才能提高数据的
文档评论(0)