网站大量收购独家精品文档,联系QQ:2885784924

第九章特征选择与降维单个特征的评价.pptVIP

第九章特征选择与降维单个特征的评价.ppt

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章特征选择与降维单个特征的评价

北京邮电大学信息工程学院 第九章 特征选择与降维 §9-1 单个特征的评价 一. K-W 检验 K-W(Kruskal and Wallis)检验是一种常用的特征选择方法。 假定要检验某个特征x对于分类的有效程度,已知一批样品共有N 个,这批样品分为m类,第i类包括品, ,则检 验方法如下: (1) 列出全部样品对应的特征x的取值。 (2) 按照x取值从小到大的顺序给每个样品编号。例如,x取 值最小的样品编号为1, x取值次小的样品编号为2,等等。 若有几个样品所对应的x值相同,可以对它们随机编号,也 可以采用平均也可以采用随机编号的办法。 (3) 取每类各样品编号的平均值,分别记作 。 (4) 计算统计量H,公式为: (9.1) 在实用中一般只需比较各特征的H值,H越大时,特征的分 类能力越强。 例9.1 设有N=10个样品,共分m=2类,每个样品取4个特征, 用K-W检验比较特征的分类能力。原始资料矩阵见表9.1。 首先对 将各样品按值大小编号, 所对应的 值最 小(0.18)。编号为第1号, 编为第2号,全部编号结果列在表9.2 的第一行中。于是有 表9.2 对于各样品的重新编号 对于 分别有 , , 。所以特 征 的分类能力最强, 次之, 最差。 K-W检验的原理是清楚的。 首先,式(9.1)括号中的(N+1)/2是全体样品编号的均值, 而 是各类样品编号的均值,因此H实际上相当于特征x对应 编号的组间离差。 其次,用编号代替特征x的原有取值也是不难理解的。在表 9.1中,两类样品所对应的特征 的原有取值的平均值都是0.7, 即两类均值完全相同。 从这一事实来看, 应该是一个很坏的特征。但是,用 对 样品分类时,如果取0.4和0.5之间的某个数,例如0.45作为分界 点,被分错的却只有一个点 。这又说明 这个特征不太坏。 那么何以会出现两类均值相同的现象呢?不难看出,这是由于 二.直方图方法 点 的 值太大而造成的结果。用编号代替特征则可以排 除这种干扰。因为编号只反映特征的大小顺序,而不考虑其数 值。 在图9.1中可以看到,在 的直方图中两类样品可以比较清楚地分开,而在特征 的直方图则有较多的混淆现象。因此,直方图可以作为检验特征分类能力的一种工具。 从直方图出发可以构造所谓可接受的运算特征(ROC)曲线。一个一般的直方图如图9.2(a)所示。任意取x轴上一点t作为分界点。第一类样品被判错部分的面积记为α,第二类被判错部分记作β,不断改变t的位置,并将点(α,1-β)画在平面上,便形成图9.2(b)中的ROC曲线。图中的面积A表示特征x的分类能力,A越大,x的分类能力越强。 现在我们来做例9.1中特征 的ROC曲线,使t从 开始逐渐增加直到 ,对应的α和β值记在表9.3中,ROC曲线见图9.2(c)。 从直方图出发还可以设计另外的特征选择方法。例如,在图9.1(a)中把两类中互不混淆的部分分别记作 和 。当有多个特征时,先从中挑选一个使 之值最大的特征,并且去掉那些可以用这个特征分开的样品,再从剩下的样品中挑选其他的特征。 表9.3 特征的ROC曲线计算步骤 三.利用不确定性选择特征 不确定性或熵是信息论中的概念。假定要考查某个特征 x的分类能力。首先把x的取值范围分为k段,把样品点落到其中第j段的频率记作 。又设样品共有m类,把第i类样品点落到第j段的频率记作 。然后计算熵: 熵越小则x的分类能力越强。 例9.2 设有40个样品点共分两类,其中某特征x的变化范围 在0.20到0.90之间。将这个范围分为两段,所得结果列在表 9.4中。

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档