- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【例9-27】在pandas中读取含有缺失值的文件。 首先准备含有缺失值的csv文件如下: white,red,blue,pink,black,green,animal 1,2,3,4,5,6,cat 2,3,6,NA,2,3,dog 1,2,5,NULL,7,6,pig 2,3,4,NA,2,1,mouse 将其保存为5.csv。 (1)直接读取含有缺失值的文件,代码如下: import pandas as pd import numpy as np df=pd.read_csv(5.csv) print(df) pandas数据清洗 方法名称 方法描述 cleaned 清除所有缺失值 dropna 根据条件过滤缺失值 isnull 返回一个布尔值,标明哪些是缺失值 fillna 填充缺失值数据 notnull isnull的否定式 【例9-28】在pandas中处理数据缺失值,代码如下。 import pandas as pd import numpy as np frame=pd.DataFrame([[1,2,3,None],[4,7,None,3],[None, None, None, None]]) frame 在数据采集中经常会出现重复的数据,这时可以使用pandas来进行数据清洗。在pandas中可以使用方法duplicated()来查找重复数据,使用方法drop_duplicated()来清洗重复数据 9.4 pandas数据可视化 pandas使用一维的数据结构Series和二维的数据结构DataFrame来表示数据,因此相比较于numpy,pandas可以存储混合的数据结构。 pandas中的绘图函数如下: import pandas as pd import numpy as np from pandas import DataFrame,Series import matplotlib.pyplot as plt 此外,根据需要,有时还要引入numpy中的随机数模块: from numpy.random import randn 【例9-31】在pandas中使用Series绘制线性图,代码如下。 from pandas import DataFrame,Series import pandas as pd import numpy as np import matplotlib.pyplot as plt s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10)) s.plot() plt.show() 【例9-32】在pandas中使用DataFrame绘制线性图,代码如下。 from pandas import DataFrame,Series import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.DataFrame(np.random.randn(10, 4).cumsum(0), columns=[A, B, C, D], index=np.arange(0, 100, 10)) df.plot() plt.show() 本章小结 (1)pandas是Python中的一个数据分析与清洗的库,pandas库是基于numpy库构建的。在pandas库中包含了大量的标准数据模型,并提供了高效地操作大型数据集所需的工具,以及大量快速便捷地处理数据的函数和方法,使得以numpy为中心的应用变得十分简单。 (2)在pandas库有两个最基本的数据类型,分别是Series和DataFrame。其中Series数据类型表示一维数组,与numpy中的一维array类似,并且二者与Python基本的数据结构List也很相近。而DataFrame数据类型则代表二维的表格型数据结构,也可以将DataFrame理解为Series的容器。 (3)pandas使用一维的数据结构Series和二维的数据结构DataFrame来表示数据,因此pandas可以高效的绘图。 大数据分析 第九章 pandas 数据分析与清洗 本章学习目标 掌握pandas安装和运行 掌握pandas的基本语法 掌握p
您可能关注的文档
最近下载
- 1-16006(15-335)攀枝花煤业(集团)有限公司大宝顶矿720AWD3采煤机用户图册PM6.pdf
- 231页PPT数字城市综合管理服务平台建设方案.pptx VIP
- 北师大版五年级数学上册第二单元《轴对称和平移》(大单元教学设计).docx VIP
- 检验批划分方案(正式版).docx VIP
- 以二十四节气为基础的文创产品的设计与开发.docx
- 2.2 抒情与写意——文人画 课件-高中美术人美版(2019)美术鉴赏.pptx
- 党课课件单位负责人领导述职述廉报告各级党员干部述职述廉报告党课.ppt VIP
- 整合生活方式干预模式用于缓解初产妇疼痛.pptx
- 拼多多新商家店铺能力认证考试答案题库-高级经营能力认证-店铺管理+商品管理+订单管理.docx
- 2024年健康驿站方案.docx VIP
文档评论(0)