数据挖掘的基本概念.docVIP

下载本文档

3
0
约3.52千字
约 4页
2017-06-16 发布于上海
举报
版权申诉

数据挖掘的基本概念.doc

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1 数据挖掘的基本概念随着数据库技术的不断发展及数据库管理系统的广泛应用，数据库中存储的数据量急剧增大，在大量数据背后隐藏着许多重要的信息，如果能把这些信息从数据库中抽取出来，将为公司创造很多潜在的利润。这种从海量数据库中挖掘信息的技术，就称之为数据挖掘技术。美国SA S 软件研究所将数据挖掘定义为：“按照既定的业务目标，对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步模型化的先进、有效的方法[1]。”数据挖掘能够对将来的趋势和行为进行预测，从而很好地支持人们的决策。比如，通过对公司整个数据库系统的分析，数据挖掘可以回答诸如“哪些客户最有可能购买我们公司的什么产品，为什么？”等类似问题。数据挖掘还能够解决一些很消耗人工时间的传统问题，因为它们能够快速地浏览整个数据库，找出一些专家们不易察觉的极有用的信息。数据挖掘的一般步骤如下：问题理解和提出→数据准备→数据整理→建立模型→评价和解释。（1）问题理解和提出：在开始数据挖掘之前最基础的就是理解数据和实际的业务问题，在这个基础之上提出问题，对目标有明确的定义。（2）数据准备：获取原始的数据，并从中抽取一定数量的子集，建立数据挖掘库，其中一个问题是，如果企业原来的数据仓库满足数据挖掘的要求，就可以将数据仓库作为数据挖掘库。（3）数据整理：由于数据可能是不完全的、有噪声的、随机的，有复杂的数据结构，就要对数据进行初步的整理，清洗不完全的数据，做初步的描述分析，选择与数据挖掘有关的变量，或者转变变量。（4）建立模型：根据数据挖掘的目标和数据的特征，选择合适的模型。（5）评价和解释：对数据挖掘的结果进行评价，选择最优的模型，作出评价，运用于实际问题，并且要和专业知识结合对结果进行解释。以上的步骤不是一次完成的，可能其中某些或者全部要反复进行。 2 粗糙集的基本概念 1982 年，波兰学者Z.Pawlak 提出了粗糙集理论，它是一种刻划不完整性和不确定性的数学工具，能有效地分析不精确、不一致(inconsistent)、不完整(incom plete)等各种不完备的信息，还可以对数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律[2]。粗糙集理论是建立在分类机制基础上的，它将分类理解为在特定空间上的等价关系，而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分，每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库，将不精确或不确定的知识用已知知识库中的知识来（近似）刻画。该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息，所以对问题的不确定性的描述或处理可以说是比较客观的。定义1 信息系统S 可表示为S = (U ,A ,V ,f)，其中U 是对象的非空有限集合，称为论域；A 是属性的非空有限集合；V =∪a∈A V a，V a 是属性A 的值域， f:U×A →V 是一个信息函数，它为每个对象的每个属性赋予一个信息值。如果属性集A 可以分为条件属性集C 和决策属性集D ，即C∪D = A ，C∩D =Ф，则该信息系统称为决策系统或决策表，其中D 一般只含有一个属性。定义2 在知识表达系统S 中，对于一属性集 P∈A ，对象x,y∈U ，二元等价关系IN D (P)= { (x,y)∈U ×U |所有的a∈ P,f(x,a)= f(y,a)}称为S 的不可分辨关系。不可分辨关系是一个等价关系，通过一个不可分辨关系，可以得到一个决策系统的划分。定义3 给定信息系统S = (U ,A )，B ∈A ，对B 中的属性a，如果IN D (B )≠ IN D (B - {a}) ，则称属性a 是必要的(Indispensable)，否则称a 是不必要的(D ispensable)。 3 粗糙集在数据挖掘中的应用近年来，粗糙集理论在数据挖掘中的应用取得了较大的进展，基于粗糙集理论的方法逐渐成为数据挖掘主流方法之一。基于粗糙集理论的数据挖掘系统一般都由数据预处理、基于粗糙集理论或其扩展理论的数据约简、决策算法等组成。其大概思想是：首先通过粗糙集对信息表中的数据缺损进行处理；然后根据已定义的可辩识距阵，通过属性简约算法对信息表中的数据进行属性简约和知识发现；最后根据值约简等减少属性和个体数目，最终提取规则并将之应用于新对象的分类。（1）数据预处理在现实世界的很多情况下，我们拿到的第一手数据都会存在噪音数据、空缺数据和不一致性数据等我们不希望出现的数据，甚至因为数据库过于强大，这样的数据多达数千兆字节。因此，不得不去想一个问题：“怎样处理数据才能提高数据的