基于邻域度量的低质数据特征选择方法研究.pdf

下载文档

0
0
约27.69万字
约 103页
2025-02-08 发布于江西
举报
版权申诉
保障服务

基于邻域度量的低质数据特征选择方法研究.pdf

1、本文档共103页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

近年来，随着大数据技术和信息技术的迅猛发展，丰富多样的数据信息激增。拥有

不平衡、不完备以及高维等特性的低质数据已大量涌现，不可避免地给数据挖掘研究带

来了不可估量的挑战。在数据挖掘领域中，特征选择是一种有效的预处理方法，已被深

入研究并被广泛应用。传统的特征选择方法中存在难以找到最优的特征子集，仅凭专家

经验来确定大量参数、未考虑数据中样本的不平衡分布以及对特征的不确性度量过于单

一等问题。为了解决这些问题，对粗糙集、邻域粗糙集、模糊邻域粗糙集等理论展开深

入研究，针对不平衡、复杂高维数据和不完备数据设计了对应的特征选择模型和算法，

并对所设计的算法进行仿真实验来证明有效性。本文的主要研究内容包括以下三个方面：

（1）针对现有的不平衡数据分类模型主要关注多数类样本、熵度量存在忽略数据

边界等问题，提出了一种新的基于自适应合成过采样和自适应模糊邻域的特征选择方法。

首先，根据少数类样本之间的方差距离定义了亲密度，改进了自适应合成过采样模型建

立了平衡决策系统。其次，利用所有同类样本与异类样本的数据间隔建立了自适应模糊

邻域半径，并构造了新的模糊邻域粗糙集模型。然后，将粗糙度与自适应模糊邻域熵结

合，从代数和信息两个角度构造了自适应模糊邻域联合熵，并在此基础上设计了带有容

差参数的自适应模糊邻域特征选择算法，有效处理不平衡的高维数据。在26个不平衡

数据集上的实验结果表明，所设计算法是有效的，可以为不平衡数据选择出具有较好分

类性能的最优特征子集。

（2）针对现有的模糊邻域粗糙集模型设置全局参数时未考虑不平衡分布问题，构

建了一种基于模糊C均值聚类和模糊多邻域的特征选择方法。首先，通过样本的距离计

算相异性和模糊相似性，并设计模糊C均值聚类混合采样方法构建了平衡决策系统。其

次，根据样本分布设计了新的标准差，构建了多邻域半径集，并利用高斯核函数计算模

糊相似关系和模糊邻域粒，构建了一种新的模糊邻域粗糙集模型。然后，在模糊互补熵

的基础上定义了模糊互补互信息等不确定性度量，并引入依赖度来度量模糊邻域决策系

统的不确定性。最后，基于模糊C均值聚类混合采样建立了平衡决策系统，并设计了基

于模糊互补互信息的特征选择算法，以选择最优特征子集。在26个不平衡数据集上的

实验表明，所设计的算法与其他算法相比是有效的。

（3）针对经典粗糙集在处理数值型和符号型的混合型数据时存在信息丢失的问题，

提出了基于邻域区分度的特征选择算法。首先，在不完备混合邻域决策系统中，针对3

种数据类型定义了不同数据类型的距离函数，建立了样本的邻域及其邻域容差关系，并

提出了不完备混合数据的邻域粗糙集模型。然后，基于邻域容差关系定义了区分关系，

并定义了邻域区分度、相对邻域区分度等度量来评价不完备混合数据的特征。最后，定

义了不完备混合数据的特征子集、内部与外部特征重要度，进而基于邻域区分度提出了

一种启发式的不完备混合数据特征选择算法。在8个不完备混合数据集上进行分析与验

证，实验结果表明所提算法可以有效地获取最少的特征子集，并在处理不完备混合数据

时具有高效的分类能力。

关键词：低质数据，特征选择，邻域决策系统，邻域粗糙集，不确定性度量

ABSTRACT

Inrecentyears,withtherapiddevelopmentofbigdatatechnologyandinformationtechnology,richand

diversedatainformationhasproliferated.Alargenumberoflow-qualitydatawithimbalanced,incomplete,

andhigh-dimensionalcharacteristicshasemerged,whichinevitablybringsimmeasurablechallengesto

researchondatamining.Inthefieldofdatamining,featureselectionisaneffectivepreprocessingmethod,

whichhasbeendeeplystudiedandwidelyused.Forthetr

您可能关注的文档

文档评论（0）

论文资源 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于邻域度量的低质数据特征选择方法研究.pdf