一种基于K近邻互信息估计的嵌入式动态特征选择方法[发明专利].pdf

一种基于K近邻互信息估计的嵌入式动态特征选择方法[发明专利].pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 106971205 A (43)申请公布日 2017.07.21 (21)申请号 201710222656.1 (22)申请日 2017.04.06 (71)申请人 哈尔滨理工大学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 黄金杰 孔庆达 潘晓真  (51)Int.Cl. G06K 9/62(2006.01) 权利要求书5页 说明书6页 附图3页 (54)发明名称 一种基于K近邻互信息估计的嵌入式动态特 征选择方法 (57)摘要 本发明公开了一种基于K近邻互信息估计的 嵌入式动态特征选择算法,此方法不仅考虑到特 征与类别的相关度和其他特征与特征之间的冗 余度,还将单个属性的相关性和冗余性进行了延 伸,将相关性和冗余性从二元互信息度量方式延 伸到多元互信息的情况,解决了一般互信息求解 方法因数据维度和数据量大而引起的计算复杂 度大,互信息估算不够准确的问题。然后通过动 态特征选择的思想,通过分类器识别可以识别的 样本数据,并将其从数据样本集中排除,以此剔 除计算信息熵过程中的“虚假信息”,更好地估算 A 互信息。之后与传统的(MRMR)特征选择算法进行 5 对比实验,本算法能够得到特征维数比较低、冗 0 2 1 余度比较小但分类准确率较高的特征子集,并且 7 9 6 具有比较好的稳定性。 0 1 N C CN 106971205 A 权 利 要 求 书 1/5页 1.一种基于K近邻互信息估计的嵌入式动态特征选择方法,其特征在于,包括以下步 骤: 首先介绍传统基于互信息的特征选择方法。 1数据集合预处理 当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰, 现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规 约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据, 数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据 满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都 是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据 集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的 属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有: 2互信息的相关知识 特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要 解决的问题有两个方面:一方面是度量标准问题,一方面是特征的评价函数的选择问题。在 数据分类的研究过程中,如果一个特征属性与类别属性有强的相关性,那么该属性对于分 类来说是十分重要的属性,如果一个特征属性与类别属性有弱的相关性,那么该属性对于 分类来说是非重要的属性,因此针对这种相关性问题讨论,选择信息论中的互信息作为度 量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。 信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的 是表述信息含量的多少。 其中,p(x)表示变量X取值为xi的概率,变量X的不确定程度就可以用信息熵H(X)来表 i 示,H(X)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的 干扰。 条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个 变量的依赖程度的强弱程度,故随机变量X对另一个随机变量Y的依赖程度可以用条

文档评论(0)

137****7707 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档