大数据分析 第九章 pandas 数据分析与清洗.ppt

大数据分析 第九章 pandas 数据分析与清洗.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【例9-27】在pandas中读取含有缺失值的文件。 首先准备含有缺失值的csv文件如下: white,red,blue,pink,black,green,animal 1,2,3,4,5,6,cat 2,3,6,NA,2,3,dog 1,2,5,NULL,7,6,pig 2,3,4,NA,2,1,mouse 将其保存为5.csv。 (1)直接读取含有缺失值的文件,代码如下: import pandas as pd import numpy as np df=pd.read_csv(5.csv) print(df) pandas数据清洗 方法名称 方法描述 cleaned 清除所有缺失值 dropna 根据条件过滤缺失值 isnull 返回一个布尔值,标明哪些是缺失值 fillna 填充缺失值数据 notnull isnull的否定式 【例9-28】在pandas中处理数据缺失值,代码如下。 import pandas as pd import numpy as np frame=pd.DataFrame([[1,2,3,None],[4,7,None,3],[None, None, None, None]]) frame 在数据采集中经常会出现重复的数据,这时可以使用pandas来进行数据清洗。在pandas中可以使用方法duplicated()来查找重复数据,使用方法drop_duplicated()来清洗重复数据 9.4 pandas数据可视化 pandas使用一维的数据结构Series和二维的数据结构DataFrame来表示数据,因此相比较于numpy,pandas可以存储混合的数据结构。 pandas中的绘图函数如下: import pandas as pd import numpy as np from pandas import DataFrame,Series import matplotlib.pyplot as plt 此外,根据需要,有时还要引入numpy中的随机数模块: from numpy.random import randn 【例9-31】在pandas中使用Series绘制线性图,代码如下。 from pandas import DataFrame,Series import pandas as pd import numpy as np import matplotlib.pyplot as plt s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10)) s.plot() plt.show() 【例9-32】在pandas中使用DataFrame绘制线性图,代码如下。 from pandas import DataFrame,Series import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.DataFrame(np.random.randn(10, 4).cumsum(0), columns=[A, B, C, D], index=np.arange(0, 100, 10)) df.plot() plt.show() 本章小结 (1)pandas是Python中的一个数据分析与清洗的库,pandas库是基于numpy库构建的。在pandas库中包含了大量的标准数据模型,并提供了高效地操作大型数据集所需的工具,以及大量快速便捷地处理数据的函数和方法,使得以numpy为中心的应用变得十分简单。 (2)在pandas库有两个最基本的数据类型,分别是Series和DataFrame。其中Series数据类型表示一维数组,与numpy中的一维array类似,并且二者与Python基本的数据结构List也很相近。而DataFrame数据类型则代表二维的表格型数据结构,也可以将DataFrame理解为Series的容器。 (3)pandas使用一维的数据结构Series和二维的数据结构DataFrame来表示数据,因此pandas可以高效的绘图。 大数据分析 第九章 pandas 数据分析与清洗 本章学习目标 掌握pandas安装和运行 掌握pandas的基本语法 掌握p

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档