网站大量收购闲置独家精品文档,联系QQ:2885784924

Python科学计算、数据处理与分析课件 (6).pptx

Python科学计算、数据处理与分析课件 (6).pptx

  1. 1、本文档共169页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章Pandas数据处理

第4章Pandas数据处理我们所获取的数据,大部分会存在格式不一致、有异常值或缺失值等情况。有些异常值会影响数据分析的结果,导致错误的判断和结论,因此在数据分析前进行数据的清洗和预处理是非常重要的工作。本章首先介绍如何清洗数据,数据清洗主要完成对缺失值、异常值、重复数据的处理;然后介绍如何进行数据合并、分箱、转换等一些数据预处理工作;数据清洗和预处理后,就要使用数据分组和聚合函数进行数据分析与数据探索。

4.1数据清洗数据清洗是指发现并纠正数据中可识别的错误,包括检查数据一致性、处理异常值和缺失值等。数据集中的数据是面向某一主题的数据的集合,可能从多个渠道获取,这样就避免不了有些数据有异常值、重复数据或缺失值等,这些数据显然是我们不想要的,它们被称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。本节将讲解如何使用Pandas清洗数据,例如使用Pandas中的函数寻找重复数据、处理缺失值等,异常值的检测将在后续内容中介绍。

4.1.1处理缺失值在本书的后续内容中会使用“缺失”或“NaN”来表示缺失值。Pandas中使用isnull()和notnull()函数来检查缺失值。In[1]:dictSer=pd.Series({a:10,b:40,c:5,d:90,e:35,f:40},index=[a,b,e,k])ser2=pd.isnull(dictSer)print(ser2)Out[1]:aFalsebFalseeFalsekTruedtype:boolIn[2]:ser2=pd.notnull(dictSer)print(ser2)Out[2]:aTruebTrueeTruekFalsedtype:bool

4.1.1处理缺失值另外,isnull()和notnull()也是Series对象的实例函数。In[3]:dictSer=pd.Series({a:10,b:40,c:5,d:90,e:35,f:40},index=[a,b,e,k])print(dictSer.isnull())Out[3]:aFalsebFalseeFalsekTruedtype:bool

4.1.1处理缺失值当使用Pandas进行数据处理时,会遇到很多缺失值,缺失值一般由所处理的数据本身的特性、当初录入的失误或其他原因导致,例如读入数据的空值、做除以0等计算时造成的缺失值等。对于缺失值的处理,有直接删除和进行填补两种方法,下面是几个基础的缺失值处理函数。①dropna():删除缺失值。②isnull()、notnull():判断缺失值。③fillna()、interpolate():填补缺失值。

4.1.1处理缺失值下面结合具体的例子来详细介绍上述函数的用法。在DataFrame中缺失值的标签一般为NaN。首先进行数据准备,构造一个包含缺失值的DataFrame对象(使用NumPy中的np.nan定义缺失值)。In[4]:index=pd.Index(data=[zhangsan,lisi,wangwu,zhaoliu,sunqi,zhouba],name=name)data={age:[12,20,np.nan,20,23,np.nan],city:[BeiJing,ShangHai,GuangZhou,ShenZhen,NanJing,JiNan],sex:[femal,male,female,male,male,np.nan],birth:[2000-02-10,None,1988-10-17,1978-08-08,np.nan,1988-10-17]}df=pd.DataFrame(data=data,index=index)dfOut[4]:name age birth city sex zhangsan 12.0 2000-02-10 BeiJing femallis

文档评论(0)

学海无涯而人有崖 + 关注
实名认证
内容提供者

教师资格证、人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年06月11日上传了教师资格证、人力资源管理师

1亿VIP精品文档

相关文档