网站大量收购闲置独家精品文档,联系QQ:2885784924

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第2章 数据准备.ppt

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第2章 数据准备.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
缺失值处理 若缺失的特征不重要,不会进入后续的建模步骤,或者算法自身能够处理数据缺失的情况。 如随机森林,在这种情况下不需要对缺失数据做任何的处理,这种做法的缺点是在算法的选择上有局限。 缺失值处理 3. 不处理 在Python中,可以利用如表所示的缺失值插补函数和方法插补缺失值。 缺失值处理 名称 功能 所属扩展库 格式 参数 fillna 将所有空值使用指定值替换 pandas D.fillna(value=None, inplace=False) value表示用于填补空值的scalar、dict、Series或者DataFrame对象,inplace表示是否用填补空值后的DataFrame替换原对象,默认为False interpolate 使用指定方法插补空值 pandas DataFrame.interpolate(method=linear, inplace=False) method表示用于插补的方法,默认为linear;inplace表示是否用填补空值后的DataFrame替换原对象,默认为False dropna 删除对象中的空值 pandas DataFrame.dropna(how=any, inplace=False) how参数为删除空值的方式,默认为any,表示删除全部空值 在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。异常值处理常用方法如表所示。 异常值处理 异常值处理方法 方法描述 删除含有异常值的记录 直接将含有异常值的记录删除 视为缺失值 将异常值视为缺失值,利用缺失值处理的方法进行处理 不处理 直接在具有异常值的数据集上进行模型训练 将含有异常值的记录直接删除这种方法简单易行,但缺点也很明显,在观测值很少的情况下,这种处理方式会造成样本量不足,可能会改变变量的原有分布,从而造成分析结果的不准确。 视为缺失值处理的好处是可以利用现有变量的信息,对异常值(缺失值)进行填补。 很多情况下,要先分析异常值出现的可能原因,再判断异常值是否应该舍弃,如果是正确的数据,可以直接在具有异常值的数据集上进行建模。 异常值处理 1 数据分布与趋势探查 目录 数据质量校验 2 数据清洗 3 数据合并 4 数据合并即通过数据堆叠、主键合并等方式将不同的有关联性的数据信息合并在同一张表中。 数据堆叠就是简单地把两个表拼在一起,也可以称为轴向连接、绑定或连接。根据连接轴不同的方向,数据堆叠可以分为横向堆叠和纵向堆叠。 横向堆叠即将两个表在X轴向连接到一起,纵向堆叠是将两个数据表在Y轴向上拼接,可以利用Python中pandas库的concat函数对两个表进行横向或者纵向堆叠,其基本语法格式如下。 数据堆叠 pandas.concat(objs, axis=0, join=outer, join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True) concat函数常用的参数及其说明如表所示。 数据堆叠 参数名称 说明 objs 接收多个Series,DataFrame,Panel的组合,无默认 axis 接收0或1,表示连接的轴向,默认为0 join 接收inner或outer,表示其他轴向上的索引是按交集(inner)还是并集(outer)进行合并,默认为outer join_axes 接收Index对象,表示用于其他n-1条轴的索引,不执行并∕交集运算,默认为None concat函数常用的参数及其说明如表所示。 数据堆叠 参数名称 说明 ignore_index 接收bool,表示是否不保留连接轴上的索引,产生一组新索引range(total_length),默认为False keys 接收sequence,表示与连接对象有关的值,用于形成连接轴向上的层次化索引,默认为None levels 接收包含多个sequence的list,在指定keys参数后,指定用作层次化索引时各级别中的索引,默认为None names 接收list,在设置了keys和levels参数后,用于创建分层级别的名称,默认为None verify_integrity 接收bool,表示是否检查结果对象新轴上的重复情况,如果发现重复则引发异常,默认为False 使用concat函数时,当axis=1时将不同表中数据做行对齐,而在默认情况下,即axis=0时将不同表中数据做列对齐,将不同行索引的两张或多张表纵向合并。 当需要合并的表索引或列名不完全一样时,可以使用join参数选择是内连接还是外连接,在内连接的情况下,仅仅返回索引或列

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档