网站大量收购独家精品文档,联系QQ:2885784924

机器学习原理与应用电子教案 [3]特征工程.docxVIP

机器学习原理与应用电子教案 [3]特征工程.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

备课日期:年月日

授课时间

课时(理论+实验)

周次

星期:节次:

授课课题

特征工程

教学目标

1.理解特征提取与选择的意义。

2.掌握常用特征预处理方法。

3.掌握常用特征提取与选择方法。

教学重点

1.常用特征预处理方法。

2.常用特征提取与选择方法。

教学准备

PPT、点名册等。

教学方法

案例法、探究法。

教学过程设计

备注

课题引入

【思考】人类为什么可以识别猫与狗类别,利用机器学习算法构建猫狗识别模型是的关键是什么?

【关键】特征的重要性。

【时间】分钟。

教学步骤及主要内容

【主板书】§3.特征工程

特征提取与选择的意义

【主板书】1.意义

1.特征与模型之间的关系。

2.维度灾难问题。

3.特征提取与选择的基本思想。

【举例】猫与狗识别时的特征选择。

【时间】分钟。

【提问】。

特征预处理

【主板书】2.预处理

1.异常值检测:检测特征取值或样本中的异常值或离群点,保证特征取值或样本集的规整性与合理性。

【强化与拓展】(1)统计分析:根据特定统计规律或与相关的专业知识检测异常值(如利用3σ原则、分位数等统计规律检测极小概率特征取值或样本)。(2)聚类分析:通过对特征取值或样本进行聚类,检测极小取值且偏远的群以作为异常值或离群点进行剔除。(3)距离计算:将与当前值或样本距离较远(如大于指定阈值)的值或样本视为异常值或离群点。

2.数据采样:当正负样本数量差距较大且正负样本个数本身也较大时,以样本量较少的类别对应样本数量为准,从样本量较多的类别对应的样本集中随机抽取样本以保证两类别对应的样本数量相同。在特定情况下,也可采用数据增强方法(如对图像样本进行旋转、缩放、平移与裁剪等处理)根据样本量较小的类别对应的样本集生成新的样本以保证两类别对应的样本数量相同。

【强化与拓展】数据扩充技术。

3.规范化:将特征取值映射至指定的区间以克服不同特征之间的取值差异或量纲差异(如统一映射至[0,1]区间)。

(1)Min-Max标准化:公式及相关参数含义。

【副板书】公式。

x

【强化与拓展】x与x*分别为原始特征与标准化后的特征,xmax与xmin分别为原理特征的最大值与最小值。当有新数据加入时,可能导致x_max

(2)Z-score标准化:公式及相关参数含义。

【副板书】公式。

x

【强化与拓展】μ为所有样本特征的均值,σ为所有样本特征的标准差。

4.离散化:为解决特定的分类问题或为简化分类模型的复杂度,有时需要采用特定标记将特征原始取值进行离散化处理

例1.在成绩预测中,将小于60分成绩标记为0或low,将60至80之间的成绩标记为1或mdeia,将80至100之间的成绩标记为2或high。

5.数据编码:将定型表述的特征取值转换为模型所能处理的形式。

【强化与拓展】(1)One-hotencoding:将特征的N个不同取值视为N种状态,进而采用仅有一个分量为1而其他分量为0的N维向量对特征进行编码。

例2.城市类别的取值为“北京”、“上海”与“天津”,则可编码为[100]、[010]与[001]。

(2)Dummyencoding:将One-hotencoding的状态位去除一位。

例3.城市类别的取值为“北京”、“上海”与“天津”,则可编码为[10]、[01]与[00]。

(3)Labelencoding:利用数字编号的方式对特征的N个不同的取值进行编码。

例4.将[4,9,90]或[“北京”,“上海”,“天津”]编码为[0,1,2]。

【时间】分钟。

【提问】。

三、特征选择

【主板书】3.特征选择

特征选择的目标旨在寻找最优特征子集,其不但可有效剔除不相关或冗余的特征以避免维数空难与提高模型训练效率,而且可降低模型复杂度、提高模型的泛化能力。

1.Filter方法

按照统计学准则对各个特征进行评分,通过对评分进行排序,采用设定阈值的方式选择对拟解决问题影响较大的特征或重要特征。

【强化与拓展】仅对每个特征进行单独考虑而未考虑特征之间的依赖性或相关性以及后续环节所用的模型,因而可能会选择性能不佳的特征子集(即不适合机器学习算法)。

例5.移除低方差特征(如果某特征的取值较为集中或变化较小(即方差较小),则该特征对问题的求解作用不大(如95%以上的样本的该特征取值均相同,不利于区别两个类别),应当剔除。

〖PPT〗演示VarianceThreshold库的导入与操作方法。

2.Wrapper方法

把特征选择看做一个特征子集有哪些信誉好的足球投注网站问题,筛选各种特征子集,用模型评估效果。

【强化与拓展】相对于Filter方法,Wrapper方法考虑到了特征之间的相关性以及特征组合对模型性能的影响,比较不同组合之间的差异

文档评论(0)

释然 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档