网站大量收购闲置独家精品文档,联系QQ:2885784924

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第3章 特征工程.ppt

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第3章 特征工程.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,成就未来 * * 大数据,成就未来 第3章 特征工程 * 1 特征选择 目录 特征变换 2 通常情况下,使用原始数据直接建模的效果往往不好,为了使建立的模型简单精确,需要对原始数据进行特征变换,把原始的特征转化为更为有效的特征 常用的特征变换方法有特征缩放、独热编码和特征离散化等 不同特征之间往往具有不同的量纲,由此所造成的数值间的分布差异可能会很大,在涉及空间距离计算或梯度下降法等情况时,不对量纲差异进行处理会影响数据分析结果的准确性 为了消除特征之间量纲和取值范围造成的影响,需要对数据进行标准化处理。常用数据标准化方法有离差标准化、标准差标准化、小数定标标准化和函数转换等 特征缩放 离差标准化是对原始数据的一种线性变换,结果是将原始数据的数值映射到[0,1]区间内,转换公式如下。 其中, 为样本数据的最大值, 为样本数据的最小值, 为极差。离差标准化保留了原始数据值之间的联系,是消除量纲和数据取值范围影响最简单的方法,但受离群点影响较大,适用于分布较为均匀的数据。 特征缩放 1. 离差标准化 特征缩放 2. 标准差标准化 通过移动数据的小数位数,将数据映射到区间[-1,1]区间,移动的小数位数取决于数据绝对值的最大值。转化公式如下,在下方公式中, 表示数据整数位个数。 特征缩放 3. 小数定标标准化 函数变换是使用数学函数对原始数据进行转换,改变原始数据的特征,使特征变得更适合建模,常用的包括平方、开方、取对数、差分运算等。 平方运算如下 开方运算如下 取对数运算如下 差分运算如下 特征缩放 4. 函数转换 函数变换常用来将不具有正态分布的数据变换成具有正态分布的数据。在时间序列分析中,简单的对数变换或者差分运算常常就可以将非平稳序列转换成平稳序列。还可以使用对数函数转换和反正切函数转换等函数转换方法对数据进行标准化。 对数函数转换是指利用以10为底的对数函数对数据进行转换,即 ;反正切函数转换即 ,如果要求反正切函数转换的结果全部落入[0,1]区间,那么要求原始数据全部大于等于0,否则小于0的数据会被映射到[-1,0]区间。 特征缩放 在机器学习中,经常会遇到类型数据,如性别分为男、女,手机运营商分为移动、联通和电信,这种情况下,通常会选择将其转化为数值代入模型,如0、1和–1、0、1,这个时候往往默认为连续型数值进行处理,然而这样会影响模型的效果。 独热编码便即One-Hot编码,又称一位有效编码,是处理类型数据较好的方法,主要是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候都只有一个编码位有效。 对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征,并且这些特征之间是互斥的,每一次都只有一个被激活,这时原来的数据经过独热编码后会变成稀疏矩阵。对于性别男和女,利用独热编码后可以表示为10和01。 独热编码 独热编码有以下优点。 将离散型特征的取值扩展到欧氏空间,离散型特征的某个取值就对应欧氏空间的某个点。 对离散型特征使用独热编码,可以让特征之间的距离计算更为合理。 独热编码 离散化是指将连续型特征(数值型)变换成离散型特征(类别型)的过程,需要在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一系列区间,最后用不同的符号或标签代表落在每个子区间。 例如,将年龄离散化为年龄段,如图所示。 离散化 部分只能接收离散型数据的算法,需要将数据离散化后才能正常运行,如ID3、Apriori算法等。而使用离散化搭配独热编码的方法,还能够降低数据的复杂度,将其变得稀疏,增加算法运行速度。 常用的离散化方法主要有3种。 等宽法 等频法 通过聚类分析离散化(一维) 离散化 等宽法是将数据的值域分成具有相同宽度的区间的离散化方法,区间的个数由数据本身的特点决定或者用户指定,与制作频率分布表类似。 pandas提供了cut函数,可以进行连续型数据的等宽离散化,其基础语法格式如下。 离散化 1. 等宽法 pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False) cut函数常用参数及其说明如表所示。 离散化 参数名称 说明 x 接收数组或Series。表示需要进行离散化处理的数据,无默认值 bins 接收int,list,array,tuple

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档