网站大量收购闲置独家精品文档,联系QQ:2885784924

基于邻域互信息与聚类的特征选择方法研究.pdf

基于邻域互信息与聚类的特征选择方法研究.pdf

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

近年来,随着物联网技术的高速发展,数据呈爆发式增长,这些数据常常含有大量

冗余、无关以及不确定性的信息,直接使用需要耗费大量的计算成本。特征选择作为降

维技术的一种,能够有效地去除数据中的冗余或无关信息,从海量数据中发掘有效特征,

从而减少计算成本。传统的基于邻域粗糙集的特征选择方法大多凭经验来确定邻域参数,

容易忽略数据的实际分布情况,多数未考虑数据中类分布不平衡问题。为了解决这些问

题,基于自适应邻域对邻域粗糙集和模糊邻域粗糙集进行研究,针对复杂、高维与非平

衡数据,设计了对应的特征选择方法,并通过实验对所设计的算法进行验证与分析。主

要研究内容包括以下三个方面:

(1)针对多数邻域系统通过人工调试难以有哪些信誉好的足球投注网站到最佳邻域半径,以及传统的

k-means算法需要随机选取簇中心和指定簇的数目等问题,提出了一种基于归一化邻域

互信息与k-means特征聚类的特征选择方法。首先,将样本在各特征下与其他样本距离

的平均值作为自适应邻域半径,确定样本的邻域集,并由此构建了自适应邻域熵、邻域

互信息和归一化邻域互信息等度量,反映特征之间的相关性。然后,基于归一化邻域互

信息构建了自适应K近邻集合,利用Pearson相关系数表示特征的权重定义加权K近邻

密度,实现自动选取k-means算法的簇中心,进而完成k-means特征聚类。最后,定义

了加权平均冗余度,选出每个特征簇中加权平均冗余度最大的特征构成最优特征子集。

在19个数据集上的实验结果展示了所提算法不仅可以有效提升分类结果而且可以获得

更好的聚类效果。

(2)针对传统的邻域粗糙集模型中构造的邻域不能自适应数据分布、邻域粗糙集

模型中没有结合实际情况仅凭经验指定邻域半径以及传统谱聚类算法需要人工选取参

数的问题,提出了基于自适应邻域互信息与谱聚类的特征选择方法。首先,定义各对象

在特征下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻

域条件熵和邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性

进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇

内,使不同特征簇内的特征强相异。最后,使用最大相关最小冗余准则设计了特征选择

算法。在10个数据集上所选特征个数与分类精度,验证了所提算法的有效性。

(3)为了解决基于传统邻域粗糙集模型的特征选择方法未考虑数据中类不平衡分

布,多数邻域系统通过人工调试难以找到最佳邻域半径且需要耗费大量计算成本,以及

聚类时需要指定簇的数目等问题,提出了一种基于模糊邻域互信息与特征聚类的非平衡

数据特征选择方法。首先,将样本在各特征下与其他样本距离的平均值作为阈值,确定

样本的自适应k近邻和共享近邻,定义了样本的自适应邻域密度,设计了混合采样模型,

进而构建了平衡决策系统。然后,基于特征分布定义新的邻域半径,使用高斯核函数研

究邻域内样本之间的模糊相似关系,反映了特征之间的非线性关系,使用模糊邻域互信

息度量特征间的相关性,基于此相关性对特征进行聚类,将相似的特征划分到同一个簇

中。最后,基于特征与标签的相关性设计了种群初始化策略,并引入动态位掩码策略与

适合整数编码的差异性扰动算子,设计了粒子群优化算法,实现从特征簇中选出代表性

的特征构成最终的特征子集。在18个非平衡数据集的实验结果表明所设计的算法有效

地提高了数据的分类性能。

关键词:特征选择,邻域粗糙集,模糊邻域粗糙集,非平衡数据,特征聚类

ABSTRACT

Inrecentyears,withtherapiddevelopmentoftheInternetofThingstechnology,therehasbeenan

explosivegrowthofdata,whichoftencontainsalargeamountofredundant,irrelevantanduncertain

information,whichrequiresalargeamountofcomputingcoststobeuseddirectly.Featureselection,asone

ofdimensionreductiontechniques,

文档评论(0)

论文资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档