- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《特征选择综述
特征选择常用算法综述一.什么是特征选择(Featureselection )? 特征选择也叫特征子集选择 ( FSS , Feature SubsetSelection ) 。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化。 需要区分特征选择与特征提取。特征提取 ( Feature extraction )是指利用已有的特征计算出一个抽象程度更高的特征集,也指计算得到某个特征的算法。 特征提取与特征选择都能降低特征集的维度。? 评价函数 ( Objective Function ) ,用于评价一个特征子集的好坏的指标 。这里用符号J ( Y )来表示评价函数,其中Y是一个特征集,J( Y )越大表示特征集Y越好。?评价函数根据其实现原理又分为2类,所谓的Filter和Wrapper 。 ? Filter(筛选器) : 通过分析特征子集内部的信息来衡量特征子集的好坏,比如特征间相互依赖的程度等 。Filter实质上属于一种无导师学习算法。?Wrapper(封装器) : 这类评价函数是一个分类器,采用特定特征子集对样本集进行分类,根据分类的结果来衡量该特征子集的好坏。Wrapper实质上是一种有导师学习算法。二.为什么要进行特征选择??获取某些特征所需的计算量可能很大,因此倾向于选择较小的特征集特征间的相关性,比如特征A完全依赖于特征B,如果我们已经将特征B选入特征集,那么特征A是否还有必要选入特征集?我认为是不必的。特征集越大,分类器就越复杂,其后果就是推广能力(generalization capability)下降。选择较小的特征集会降低复杂度,可能会提高系统的推广能力。Less is More !三.特征选择算法分类? 精确的解决特征子集选择问题是一个指数级的问题。常见特征选择算法可以归为下面3类:第一类:指数算法 ( Exponential algorithms )? 这类算法对特征空间进行穷举有哪些信誉好的足球投注网站(当然也会采用剪枝等优化),有哪些信誉好的足球投注网站出来的特征集对于样本集是最优的。这类算法的时间复杂度是指数级的。第二类:序列算法 ( Sequential algorithms )?这类算法实际上是一种贪心算法,算法时间复杂度较低,但是可能会陷入局部最优值,不一定能找到全局最优解。第三类:随机算法 ( Randomized algorithms )?随机算法属于一种近似算法,能找出问题的近似最优结。随机算法在近似求解NP完全问题上显示出突出的优势,可尝试用在特征选择上。四.指数算法?1. 穷举有哪些信誉好的足球投注网站( Exhaustive Search ) ? 算法描述:穷举所有满足条件的特征子集,从中选择最优。若不限定选取特征的个数,则特征子集有2^M个。 算法评价:该算法理论上可以找出最优特征子集,但其复杂度是指数级的,而实际上使用的特征数一般比较多,因而通常是不可取的。?2. 分支限界有哪些信誉好的足球投注网站( Branch and Bound )?在穷举基础上加上了分支限界,例如可以剪掉不可能有哪些信誉好的足球投注网站出比当前已找到的最优解更优的解的分支。? 使用分支限界进行特征选择需要先引入一个单调性假设(monotonicity assumption):J(Y) J(Y+x),即任何特征集的都优于其任何的子集。这样才能剪枝!看到这里读者们可能会嚷嚷了:如果这个假设成立,那直接选择全部特征就得了,还分支限界 个屁啊。的确,这个假设本身就有问题,特征过多反而会因此所谓“维度灾难”( curse of dimensionality ) 。?3. 定向有哪些信誉好的足球投注网站(Beam Search )? 算法描述:选择N个得分最高的特征作为特征子集,将其加入一个限制最大长度的优先队列,每次从队列中取出得分最高的子集,然后穷举向该子集加入1个特征后 产生的所有特征集,将这些特征集加入队列。若不限制队列的长度,这个算法就变成了最佳优先有哪些信誉好的足球投注网站( best-first search ) 。?五.序列算法??1. 朴素序列特征选择 ( Na?vesequential feature selection )?算法描述:将M个特征逐个送入评价函数,选择得分最高的N个特征组成特征子集。算法评价:简单,但没有考虑特征间的相关性,因此通常性能不好。例如,有{1,2,3,4,5}这五类样本,一共有A,B,C三个特征,现要从中选出2个 特征来区分这5类。特征A能将其分为 1,2,3,{4,5}这4类,特征B能将其分为1,{2,3},{4,5}这3类,特征C只能将其分为{1,2,3,4},{5} 这2类。那么显然最优特征是A,然后是B,最后是C,朴素序列特征选择算法会选择特征A和B,但是特征A和B并不能区分4和5类。 其实最优选择应该是A和C,只有特征A和C能将5类区分开来。?2. 序列前向选择( SFS
文档评论(0)