网站大量收购闲置独家精品文档,联系QQ:2885784924

基于粗糙集与超图的高维离群数据挖掘研讨.pdf

基于粗糙集与超图的高维离群数据挖掘研讨.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
——一一 信息系统协会中国分会第一届学术年会 —————————————————————————————————————————————————一一一 基于粗糙集与超图的高维离群数据挖掘研究水 蔡博文,倪志伟,张威,李锋刚 (合肥工业大学管理学院,合肥230009) 文摘:由于高维空间中数据分布特殊,所以传统的离群数据挖掘方法不能很好的适用于高维空间数据集。本文 针对这一问题提出了一种利用租糙集的属性约简方法对数据集的属性进行约简以减少高维空间的维数,并在约简 生成的子空间中对数据集进行基于超图模型的离群数据挖掘的方法。研究结果表明,对属性的约简可以节省数据 存储空间,提高计算效率,而利用超图模型可以发现约简后的数据集中的离群数据。实验结果说明了此方法的高 效性并且具有实用价值。 关键词:离群数据挖掘;粗糙集;超图 1 引言 2基于粗糙集的属性约简 数据挖掘(Data Mining)是从大型数据库的数据 粗糙集(Rough 中发现一些人们感兴趣的且不易被察觉的知识。离 Frege的边界线区域思想提出的。经过20多年的发 Data 群数据挖掘(Outlier 展,粗糙集理论无论是在理论体系、计算模型的建 Mining)是从大量的数据中 挖掘出明显偏离其他数据、不满足数据的一般行为 立上还是在应用系统的研制与开发上,都已取得很 或模式、与存在的其他数据不一致的数据。对离群 多成果。粗糙集为处理数据(特别是带噪声、不精 数据挖掘的研究往往可以使人们发现一些真实的但 确或不完全数据)分类问题提供了一套严密的数学 又出乎意料的知识。 工具,使得对知识能够进行严密地分析和操作。又 现有的离群数据的挖掘方法主要有以下几种: 由于数据挖掘的深入研究,使得粗糙集理论和数据 一是基于统计的方法;二是基于距离的方法:三是 挖掘有了天然的联系,粗糙集在知识上的定义、属 基于偏离的方法:四是基于规则的方法【l】。由于高 性约简、规则提取等理论,使得数据库上的数据挖 维空间中的数据分布得比较稀疏,这使得高维空间 掘有了深刻理论基础。 中数据之间的距离尺度及区域密度不再具有直观的 约简是粗糙集中一个非常重要的概念。约简, 意义,因此高维空间中的离群数据发现方法有别于 是指去掉约简中的任何一个属性,都将使得该属性 传统的离群数据发现方法12】。一些研究将高维空间 集对应的规则覆盖反例,即导致规则与例子的不一 的数据投影到子 致。约简对应的规则称为极小规则。粗糙集数据约 空间后再进行离群数据检测。如,有的学者利 简方法包括属性约简,属性值约简和规则约简三个 用演化计算寻找所有投影到子空间稀疏的小方格, 方面。在对对象集进行分类时,不同属性所起的作 将其中的数据作为离群点【3J。再如基于估计的高效 用是不同的,有的属性不可缺少,有的属性实际上 子空间局部离群点发现SLOT。研究表明,将数据是冗余的。属性约简就是将知识库中某些不必要的 投影到子空间再进行数据挖掘是可行的。但随着数 等价关系移去,或者说从决策表中消去一些不必要 据维数的增加,子空间个数里指数级增长。因此我 的列。 们不可能采用穷举法,对每一个可能的子空间进行 本文使用了Apriori算法对测试所用的数据集 投影,再从中选择效果最好的子空间。这时,如何 Transaction进行大项集的计算和关联规则的挖掘。 有效地选择出最优的子空间就成了问题的关键。本 根据粗糙集中属性约简的数据分析方法对数据集试 文采用粗糙集对数据集进行属性约简附】,减少了空 着逐一消去属性,然后检查决策规则集的不一致规 间的维数,并在子空间中利用超图模型12]进行离群则是否有变化,若没有变化,则此属性可约。余下 数据挖掘。 的属性集合就是核集。实验结果表明,将实验数据 ·基金项目,安徽省自然科学基金资助项目(050460402)

您可能关注的文档

文档评论(0)

精品课件 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档