数据挖掘的基本概念.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 数据挖掘的基本概念 随着数据库技术的不断发展及数据库管理系 统的广泛应用,数据库中存储的数据量急剧增 大,在大量数据背后隐藏着许多重要的信息,如 果能把这些信息从数据库中抽取出来,将为公司 创造很多潜在的利润。这种从海量数据库中挖掘 信息的技术,就称之为数据挖掘技术。美国SA S 软件研究所将数据挖掘定义为:“按照既定的业 务目标,对大量的企业数据进行探索、揭示隐藏 其中的规律性并进一步模型化的先进、有效的方 法[1]。”数据挖掘能够对将来的趋势和行为进行预 测,从而很好地支持人们的决策。比如,通过对 公司整个数据库系统的分析,数据挖掘可以回答 诸如“哪些客户最有可能购买我们公司的什么产 品,为什么?”等类似问题。数据挖掘还能够解 决一些很消耗人工时间的传统问题,因为它们能 够快速地浏览整个数据库,找出一些专家们不易 察觉的极有用的信息。数据挖掘的一般步骤如 下:问题理解和提出→数据准备→数据整理→建 立模型→评价和解释。 (1) 问题理解和提出:在开始数据挖掘之前 最基础的就是理解数据和实际的业务问题,在这 个基础之上提出问题,对目标有明确的定义。 (2) 数据准备:获取原始的数据,并从中抽取一 定数量的子集,建立数据挖掘库,其中一个问题 是,如果企业原来的数据仓库满足数据挖掘的要 求,就可以将数据仓库作为数据挖掘库。(3) 数据整理:由于数据可能是不完全的、有噪声 的、随机的,有复杂的数据结构,就要对数据进 行初步的整理,清洗不完全的数据,做初步的描 述分析,选择与数据挖掘有关的变量,或者转变 变量。(4) 建立模型:根据数据挖掘的目标和 数据的特征,选择合适的模型。(5) 评价和解 释:对数据挖掘的结果进行评价,选择最优的模 型,作出评价,运用于实际问题,并且要和专业 知识结合对结果进行解释。 以上的步骤不是一次完成的,可能其中某些 或者全部要反复进行。 2 粗糙集的基本概念 1982 年,波兰学者Z.Pawlak 提出了粗糙集 理论,它是一种刻划不完整性和不确定性的数学 工具,能有效地分析不精确、不一致(inconsistent)、不完整(incom plete)等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律[2]。粗糙集理论是建立在 分类机制基础上的,它将分类理解为在特定空间 上的等价关系,而等价关系构成了对该空间的划 分。粗糙集理论将知识理解为对数据的划分,每 一被划分的集合称为概念。粗糙集理论的主要思 想是利用已知的知识库,将不精确或不确定的知 识用已知知识库中的知识来(近似) 刻画。该理 论与其他处理不确定和不精确问题理论的最显著 的区别是它无需提供问题所需处理的数据集合之 外的任何先验信息,所以对问题的不确定性的描 述或处理可以说是比较客观的。 定义1 信息系统S 可表示为S = (U ,A ,V ,f), 其中U 是对象的非空有限集合,称为论域;A 是属性的非空有限集合;V =∪a∈A V a,V a 是属 性A 的值域, f:U×A →V 是一个信息函数,它 为每个对象的每个属性赋予一个信息值。如果属 性集A 可以分为条件属性集C 和决策属性集D , 即C∪D = A ,C∩D =Ф,则该信息系统称为决 策系统或决策表,其中D 一般只含有一个属性。 定义2 在知识表达系统S 中,对于一属性集 P∈A ,对象x,y∈U ,二元等价关系IN D (P)= { (x,y)∈U ×U |所有的a∈ P,f(x,a)= f(y,a)}称 为S 的不可分辨关系。不可分辨关系是一个等价 关系,通过一个不可分辨关系,可以得到一个决 策系统的划分。 定义3 给定信息系统S = (U ,A ),B ∈A , 对B 中的属性a,如果IN D (B )≠ IN D (B - {a}) ,则称属性a 是必要的(Indispensable),否则称a 是不必要的(D ispensable)。 3 粗糙集在数据挖掘中的应用 近年来,粗糙集理论在数据挖掘中的应用取 得了较大的进展,基于粗糙集理论的方法逐渐成 为数据挖掘主流方法之一。基于粗糙集理论的数 据挖掘系统一般都由数据预处理、基于粗糙集理 论或其扩展理论的数据约简、决策算法等组成。 其大概思想是:首先通过粗糙集对信息表中的数 据缺损进行处理;然后根据已定义的可辩识距 阵,通过属性简约算法对信息表中的数据进行属 性简约和知识发现;最后根据值约简等减少属性 和个体数目,最终提取规则并将之应用于新对象 的分类。 (1) 数据预处理在现实世界的很多情况 下,我们拿到的第一手数据都会存在噪音数据、 空缺数据和不一致性数据等我们不希望出现的数 据,甚至因为数据库过于强大,这样的数据多达 数千兆字节。因此,不得不去想一个问题:“怎 样处理数据才能提高数据的

文档评论(0)

9j6i8btlb9 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档