网站大量收购闲置独家精品文档,联系QQ:2885784924

基于邻域粗糙集的特征选择算法研究.pdf

基于邻域粗糙集的特征选择算法研究.pdf

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

特征选择作为粗糙集理论的重要研究内容之一,其要求在不改变特征原始表达的基

础上,从特征集合中筛选最能代表数据特点的最优特征子集。粗糙集理论是处理不确定、

不精确和模糊问题的有效工具,其最显著的特点在于它无需提供任何先验知识就可有效

对数据进行处理。然而,经典粗糙集建立的等价关系限制了它仅能较好处理离散型数据,

并不适用于在实际应用中广泛存在的混合型(离散型和连续型)数据。作为经典粗糙集

的扩展模型,邻域粗糙集(NRS)采用邻域关系替代等价关系,不仅延续了经典粗糙集

的优点,也克服了其不足。因此,本文基于NRS对特征选择算法进行了一系列探索,具

体内容如下:

(1)NRS已被广泛应用于研究特征选择算法,但NRS中的重要特征评价函数依赖

度仅关注了下近似中的分类信息,忽略了上近似中的分类信息,这影响了该函数的评价

效果。因此,本文利用上近似定义了模糊度,并分别基于依赖度和模糊度提出了两种自

信息不确定性测度。然后,将上述两种自信息不确定性测度相结合提出了更为全面的近

似自信息用于评价特征子集分类信息的不确定性,并基于近似自信息构建了一种启发式

特征选择算法。通过对比五个低维数据集上多种特征选择算法的结果证实了所提算法的

有效性。

(2)对于传统的特征选择算法具有高时间复杂度和低预测精度的问题,设计了一

种基于决策信息和信息增益的特征选择算法。首先,定义了联合信息粒的概念,并基于

联合信息粒提出了邻域信息熵测度,本文给出了这些测度间的关系,这有助于系统地研

究来自信息系统中的不确定性。然后,针对基于单调评价函数算法的缺点,利用邻域信

息熵测度中的决策信息作为评价函数设计了一种非单调的算法,从而提高数据的分类精

度,并为了降低所设计算法对高维数据的时间代价,引入信息增益为高维数据集初步剔

除不相关的特征。根据六个低维和六个高维数据集上的实验结果验证了所设计的算法对

提高不同维度数据集的分类精度是有效的。

(3)针对NRS固有的忽略不同类别间差异和NRS中的特征评价函数不能有效反

映特征与决策间相关程度的问题,本文提出一种基于自适应邻域粗糙集(ANRS)中粗

糙互信息的特征选择算法。首先,提出样本的边界来粒化所有样本,并通过组合同一类

I

别中所有样本的边界构建了ANRS,它从数据中挖掘出了每种类别的特性,克服了NRS

固有的局限性。其次,受结合信息视图和代数视图的启发,将代表了信息视图的互信息

自然地延伸至ANRS中,并将它与代表代数视图的粗糙度相结合提出了粗糙互信息来定

量地分析特征与决策间的相关程度。然后,设计了一种利用粗糙互信息的基于最大相关

最小冗余(mRMR)的特征选择算法,同时为了减少该算法在处理高维数据时的时间开

销,将降维方法FisherScore引入所设计的算法中。依据ANRS下所设计的算法与基于

NRS的多种算法在五个低维和六个高维数据集上的实验结果来证明所提算法的高效性。

关键词:特征选择,粗糙集理论,邻域粗糙集,不确定性测度,最大相关最小冗余

II

ABSTRACT

Featureselection,asoneoftheimportantresearchcontentsofroughsettheory,requiresthattheoptimal

featuresubsetwhichcanbestrepresentdatacharacteristicsbeselectedfromfeaturesetswithoutchanging

theoriginalfeatureexpression.Roughsettheoryisaneffectivetooltodealwithuncertain,imprecise,and

ambiguousproblems.Itsmostremarkablefeatureisthatitcaneffectivelyprocessdatawithoutprovidingany

priorknowledge.Howev

文档评论(0)

论文资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档