机器学习之特征选择.pdf

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习之特征选择

特征选择 Feature Selection 重庆大学 余俊良 特征选择 • 什么是特征选择 – 特征选择( Feature Selection )也称特征子集选择 ( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使 构造出来的模型更好。 • 为什么要做特征选择 – 在机器学习的实际应用中,特征数量往往较多,其中 可能存在不相关的特征,特征之间也可能存在相互依 赖,容易导致如下的后果: • 特征个数越多,分析特征、训练模型所需的时间就越长。 • 特征个数越多,容易引起“维度灾难”,模型也会越复杂,其 推广能力会下降。 特征选择 特征选择能剔除不相关(irrelevant)或亢余(redundant ) 的特征,从而达到减少特征个数,提高模型精确度, 减少运行时间的目的。另一方面,选取出真正相关 的特征简化了模型,使研究人员易于理解数据产生 的过程。 特征选择的一般过程 特征选择包含子集有哪些信誉好的足球投注网站与子集评价两个过程。首先 从特征全集中产生出一个特征子集,然后用评价函 数对该特征子集进行评价,评价的结果与停止准则 进行比较,若评价结果比停止准则好就停止,否则 就继续产生下一组特征子集,继续进行特征选择。 选出来的特征子集一般还要验证其有效性。 特征选择的子集产生过程 产生过程是有哪些信誉好的足球投注网站特征子空间的过程。有哪些信誉好的足球投注网站的算法分为完全搜 索(Complete),启发式有哪些信誉好的足球投注网站(Heuristic),随机有哪些信誉好的足球投注网站(Random) 3 大类 特征选择的子集产生过程 1.完全有哪些信誉好的足球投注网站 完全有哪些信誉好的足球投注网站分为穷举有哪些信誉好的足球投注网站(Exhaustive)与非穷举有哪些信誉好的足球投注网站(Non- Exhaustive)两类。 (1) 广度优先有哪些信誉好的足球投注网站( Breadth First Search ) 算法描述:广度优先遍历特征子空间。 算法评价:枚举了所有的特征组合,属于穷举有哪些信誉好的足球投注网站,时间复 n 杂度是O(2 ),实用性不高。 (2)分支限界有哪些信誉好的足球投注网站( Branch and Bound ) 算法描述:在穷举有哪些信誉好的足球投注网站的基础上加入分支限界。例如:若断 定某些分支不可能有哪些信誉好的足球投注网站出比当前找到的最优解更优的解,则 可以剪掉这些分支。 特征选择的子集产生过程 (3) 定向有哪些信誉好的足球投注网站(Beam Search ) 算法描述:首先选择N个得分最高的特征作为特征子集,将 其加入一个限制最大长度的优先队列,每次从队列中取出得 分最高的子集,然后穷举向该子集加入1个特征后产生的所 有特征集,将这些特征集加入队列。 (4) 最优优先有哪些信誉好的足球投注网站( Best First Search ) 算法描述:与定向有哪些信誉好的足球投注网站类似,唯一的不同点是不限制优先队 列的长度。 特征选择的子集产生过程 2. 启发式有哪些信誉好的足球投注网站 (1)序列前向选择( SFS , Sequential Forward Selection ) 算法描述:特征子集X从空集开始,每次选择一个特征x加入 特征子集X ,使得特征函数J( X)最优。简单说就是,每次都选 择一个使得评价函数的取值达到最优的特征加入,其实就是 一种简单的贪心算法。 算法评价:缺点是只能加入特征而不能去除特征。例如:特 征A完全依赖于特征B与C,可以认为如果加入了特征B与C则A 就是多余的。假设序列前向选择算法首先将A加入特征集, 然后又将B与C加入,那么特征子集中就包含了多余的特征A 。 特征选择的子集产生过程 (2)序列后向选择( SBS , Sequential Backward Selection ) 算法描述:从特征全集O开始,每次从特征集O 中剔除一个特 征x ,使得剔除特征x后评价函数值达到最优。 算法评价:序列后向选择与序列前向选择正好相反,它的缺 点是特征只能去除不能加入。 另外,SFS与SBS都属于贪心算法,容易陷入局部最优值。 特征选择的子集产生过程 (3) 双向有哪些信誉好的足球投注网站( BDS , Bidirectiona

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档