- 1、本文档共92页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
机器学习原理与应用
第2章特征选择与降维
本章学习目标(知识要点)了解特征选择的作用,熟悉特征选择一般框架和常用方法,掌握其实现原理和应用;掌握特征选择的常用方法;熟悉降维技术基本原理和主要技术;熟悉主成分分析技术的原理及应用。
目录特征选择简介特征选择方法降维技术主成分分析综合案例:基于feature_selector库的商业信贷特征选择2.42.5
特征选择简介2.1
1.特征选择目的1)避免维数灾难问题在现实任务中经常遇到维数灾难问题,即描述一个对象的特征集合非常大,例如一张图片包含百万级像素,一篇文章包含成千上万级词汇。通过特征选择可以减少特征个数,使得后续学习过程在低维空间中构建模型,大幅度减轻维数灾难问题,提高机器学习算法的效率。举例来说,100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格采样一单位超正方体,则需要1020个采样点:所以,这个10维的超正方体也可以说是比单位区间大1018倍.如图任务:分类三角形和圆[1]
1.特征选择目的2)降低噪音、提取有效信息庞大的特征集合可能只有少量的元素很相关,而另一些大量的特征则可能是无关或冗余的。所谓无关特征即与当前学习目标没有直接联系的特征,而冗余特征则不会给目标对象增加任何新信息,可以从其他特征推演出来。例如一篇描述足球比赛的文章,可能其中一些关键词足以让读者了解其主题,但是诸如大量的“的”、“是的”等词汇则并不能反映这篇文章的有效信息;而描述一个运动足球踢的“好”,“那么好”这个词相比于“精准”、“迅速”等词汇是冗余特征。去除不相关或冗余的特征往往会降低学习任务的难度,让机器学习算法抽丝剥茧,获取更重要的特征。
1.特征选择目的3)降低过拟合风险特征数量越多,训练样本就会越稀疏。随着特征数量的增加,为了覆盖特征值,就需要更多的训练样本。如果没有足够的训练样本,就可能会出现过拟合问题。输入变量会增加模型本身的额外自由度,这些额外的自由度对于模型记住某些细节信息会有所帮助,但对于创建一个稳定性良好、泛化性能强的模型可能却没有好处,也就是说增加额外的不相关变量容易增大过拟合的风险,在新数据上可能表现不佳。而更少的输入维数通常意味着相应的更少的参数或更简单的结构,一定程度能帮助学习算法改善所学模型的通用性、降低过拟合风险的作用。
2.特征选择步骤机器学习算法中采用特征选择技术的一般框架特征选择:就是如何选取一个包含所需要重要信息的特征子集。通常做法是先产生一个候选子集,接着对其重要性进行评估,然后根据评价结果产生下一个候选子集,再对其进行评估,如此循环持续进行,直到无法产生一个更好的候选子集为止。两个关键环节:子集有哪些信誉好的足球投注网站、子集评价
2.特征选择步骤?
2.特征选择步骤???
目录特征选择简介特征选择方法降维技术主成分分析综合案例:基于feature_selector库的商业信贷特征选择2.42.5
◎过滤式方法◎包裹式方法◎嵌入式方法特征选择方法2.2
2.2特征选择方法特征选择方法(根据特征选择模块与机器学习算法之间的关系)过滤式(Filter)方法特征选择过程独立,与后续学习器的训练无关。包裹式(Wrapper)方法特征选择过程与机器学习算法有关,特征选择依赖于学习器的性能作为特征子集的评价准则,两者迭代进行。嵌入式(Embedding)方法特征选择过程与机器学习算法有关,特征选择与学习器训练过程融为一体,在学习器训练过程中自动进行特征选择。
2.2.1过滤式方法?
2.2.1过滤式方法单变量过滤式方法每个特征在特征空间中独立地进行排序不需要考虑特征之间的相互关系优点是计算效率高,不易过拟合缺点是不太能去掉冗余特征代表性方法包括方差检验法、卡方检验法、皮尔森相关系数法、互信息法等多变量过滤式方法考虑特征变量之间的相互关系常用基于相关性和一致性的特征选择优点是能够自然地处理冗余特征情况代表性方法Relief算法等
2.2.1过滤式方法???
2.2.1过滤式方法上述可以直接利用sklearn包的方差特征选择函数实现,如下述代码所示#载入数据fromsklearn.datasetsimportload_irisiris=load_iris()#加载方差检验特征选择函数fromsklearn.feature_selectionimportVarian
您可能关注的文档
最近下载
- 甘肃省金昌市永昌县永昌县汇泽水电开发有限公司西大河北总干渠一、二级水电站工程-两级电站装机7600kw-径流引水式电站报告书全本.docx
- 体能及其训练.ppt
- 2023年全国体育单招数学真题.pdf VIP
- 污泥综合处理项目环境影响报告表.pdf
- 病源微生物实验室生物安全委及其职责.doc
- HIKVISION海康威视异步发送卡DS-D43T01.pdf
- 北京市道路工程试验检测费用定额JLZJ-J_Y-JC-001-2022.pdf VIP
- 2024年内蒙古建筑职业技术学院单招职业技能测试题库(名校卷).docx VIP
- 门卫值班室5S管理.pptx
- [中央]2024年故宫博物院应届毕业生招聘笔试历年典型考题及解题思路分析附带答案详解.docx VIP
文档评论(0)