- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【例9-27】在pandas中读取含有缺失值的文件。 首先准备含有缺失值的csv文件如下: white,red,blue,pink,black,green,animal 1,2,3,4,5,6,cat 2,3,6,NA,2,3,dog 1,2,5,NULL,7,6,pig 2,3,4,NA,2,1,mouse 将其保存为5.csv。 (1)直接读取含有缺失值的文件,代码如下: import pandas as pd import numpy as np df=pd.read_csv(5.csv) print(df) pandas数据清洗 方法名称 方法描述 cleaned 清除所有缺失值 dropna 根据条件过滤缺失值 isnull 返回一个布尔值,标明哪些是缺失值 fillna 填充缺失值数据 notnull isnull的否定式 【例9-28】在pandas中处理数据缺失值,代码如下。 import pandas as pd import numpy as np frame=pd.DataFrame([[1,2,3,None],[4,7,None,3],[None, None, None, None]]) frame 在数据采集中经常会出现重复的数据,这时可以使用pandas来进行数据清洗。在pandas中可以使用方法duplicated()来查找重复数据,使用方法drop_duplicated()来清洗重复数据 9.4 pandas数据可视化 pandas使用一维的数据结构Series和二维的数据结构DataFrame来表示数据,因此相比较于numpy,pandas可以存储混合的数据结构。 pandas中的绘图函数如下: import pandas as pd import numpy as np from pandas import DataFrame,Series import matplotlib.pyplot as plt 此外,根据需要,有时还要引入numpy中的随机数模块: from numpy.random import randn 【例9-31】在pandas中使用Series绘制线性图,代码如下。 from pandas import DataFrame,Series import pandas as pd import numpy as np import matplotlib.pyplot as plt s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10)) s.plot() plt.show() 【例9-32】在pandas中使用DataFrame绘制线性图,代码如下。 from pandas import DataFrame,Series import pandas as pd import numpy as np import matplotlib.pyplot as plt df = pd.DataFrame(np.random.randn(10, 4).cumsum(0), columns=[A, B, C, D], index=np.arange(0, 100, 10)) df.plot() plt.show() 本章小结 (1)pandas是Python中的一个数据分析与清洗的库,pandas库是基于numpy库构建的。在pandas库中包含了大量的标准数据模型,并提供了高效地操作大型数据集所需的工具,以及大量快速便捷地处理数据的函数和方法,使得以numpy为中心的应用变得十分简单。 (2)在pandas库有两个最基本的数据类型,分别是Series和DataFrame。其中Series数据类型表示一维数组,与numpy中的一维array类似,并且二者与Python基本的数据结构List也很相近。而DataFrame数据类型则代表二维的表格型数据结构,也可以将DataFrame理解为Series的容器。 (3)pandas使用一维的数据结构Series和二维的数据结构DataFrame来表示数据,因此pandas可以高效的绘图。 大数据分析 第九章 pandas 数据分析与清洗 本章学习目标 掌握pandas安装和运行 掌握pandas的基本语法 掌握p
您可能关注的文档
- 大数据分析 第五章 数据可视化基础与应用.ppt
- 大数据分析 第六章 大数据存储与清洗.ppt
- 大数据分析 第七章 数据格式与编码技术.ppt
- 大数据分析 第八章 数据抽取与采集.ppt
- 大数据分析 第十章 数据分析与清洗综合实训.ppt
- 2025至2030宠物食品包装产业运行态势及投资规划深度研究报告.docx
- 2025至2030除冰盐行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030蚕丝被市场行业项目调研及市场前景预测评估报告.docx
- 2025至2030镀锌行业产业运行态势及投资规划深度研究报告.docx
- 2025至2030电烤箱清洁剂市场行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030车身传感器行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030肠胃外药物行业项目调研及市场前景预测评估报告.docx
- 2025至2030灯具行业市场深度调研及供需格局及有效策略与实施路径评估报告.docx
- 2025至2030底部安装压力表行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030第三代测序行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030电饼铛行业项目调研及市场前景预测评估报告.docx
- 2025至2030赌桌行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030靶向药物输送系统行业产业运行态势及投资规划深度研究报告.docx
- 2025至2030阿米卡星(CAS37517285)行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030财务管理软件行业产业运行态势及投资规划深度研究报告.docx
文档评论(0)