- 1、本文档共84页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
课时3利用Pandas模块处理数据;1.掌握Pandas模块的两种数据结构Series和DataFrame。
2.学习使用Pandas模块对数据进行编辑、计算、统计、分析。
3.会使用Python进行简单数据处理,并能从其中提取有用信息形成结论。;;;1.常用的Python扩展模块有Numpy、Scipy、Pandas和Matplotlib等,Pandas模块主要用于数据的处理和分析。
2.Python中引入Pandas模块的方法:importpandasaspd,pd是用户为导入模块取的别名。;3.pandas提供了Series和DataFrame两种数据结构。;(2)DataFrame(数据框)
①DataFrame是一种二维的数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。
创建DataFrame对象的方法很多,通常用一个相等长度的列表或字典来创建。
②DataFrame常用对象属性;4.数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。
5.matplotlib绘图
(1)matplotlib是一个绘图库,使用其中的______________子库提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。
(2)引入matplotlib的pyplot子库的方法为:
____________________________。?
6.可视化的作用
____________________、______________、增强数据的解释力与吸引力等。;7.数据以可视化方式展现出来,用户可以通过直观、交互的方式浏览和观察数据,发现数据中隐藏的______、______和______。如“百度地图”“百度指数”“航班飞行实时跟踪地图”等。
8.可视化的工具
(1)常见的数据分析中一般包含创建可视化图表功能,主要用于数据可视化的工具有大数据魔镜、Gephi、Tableanu等。
(2)使用Python、R等计算机语言编写程序实现数据的可视化。
(3)可视化工具库,如基于JavaScript的D3.js、Highcharts、GooleCharts等,基于Python的matplotlib等。;9.可视化的典型案例
数据以可视化方式展现出来,用户可以通过直观、交互的方式浏览和观察数据,发现数据中隐藏的特征、关系和模式,如“风、气象、海洋状况的全球地图”、“百度地图”、“百度指数”、“编程语言之间的影响力关系图”、“航班飞行实时跟踪地图”、“微博热词趋势图”等。;重难点剖析;2.Pandas模块中DataFrame对象;(2)查看DataFrame对象
通过index、columns、values属性可以查看DataFrame对象的行索引、列索引及数据,如:df.index、df.columns、df.values。
查看数据列:通过字典记法或属性检索DataFrame对象中的一列数据,如:df[id]或df.id。
查看数据行:通过head()、tail()返回DataFrame的前n行、后n行数据;通过索引查看指定行,如:df[2:5],返回df对象中第2、3、4行数据;通过布尔型数据选取满足条件的行。如:df[df[age]=18]。
使用at[]方法可以根据行标签和列标签选取单个值,如:df.at[0,姓名]。;(3)DataFrame对象中行、列的编辑
可以通过insert()、drop()、rename()、append()、set_value()等函数进行DataFrame对象中行、列的编辑。
(4)DataFrame对象中数据的统计与计算
可以使用count()、sum()、mean()、max()、min()、describe()、groupby()等函数对DataFrame对象中的数据进行统计与计算。
(5)DataFrame对象中数据的排序
按索引排序可以使用sort_index()函数;按值排序可以使用sort_values()函数。通过选项axis=0/1确定排序的轴向,axis默认值为0,纵向排序。
通过选项ascending=True/False确定升/降序,ascending默认值为True,升序排序;排序结果返回一个新DataFrame对象。;;例1小原爸爸负责接小原放学,一段时间内,他爸爸将每天接他时的堵车时间和天气情况记录在文件“data.xlsx”中,其中堵车时间的单位为分钟,如图a所示,并通过Python语言编程制作的图表如图b所示。;(1)通过对图b的分析可知,天气情况与堵车时间(单选,填字母:A.有/B.没有)
您可能关注的文档
- 第一章 课时2 数据采集与编码(一) 课件(共56张ppt)浙教版(2019)必修1.pptx
- 第一章 课时3 数据采集与编码(二) 课件(共70张ppt)浙教版(2019)必修1.pptx
- 第一章 课时4 数据管理与安全、数据与大数据 课件(共78张ppt)浙教版(2019)必修1.pptx
- 第一章 验收卷(一) 数据与信息 课件(共27张ppt)浙教版(2019)必修1.pptx
- 课时1 Python程序设计语言基础 课件(共64张ppt)浙教版(2019)必修1.pptx
- 课时1 人工智能的概念与发展 课件(共49张ppt)浙教版(2019)必修1.pptx
- 课时1 数据整理与计算 课件(共41张ppt)浙教版(2019)必修1.pptx
- 课时1 算法的概念及描述 课件(共42张ppt)浙教版(2019)必修1.pptx
- 课时2 Python基本数据结构 课件(共74张ppt)浙教版(2019)必修1.pptx
- 课时2 大数据处理的基本思想与架构 课件(共42张ppt)浙教版(2019)必修1.pptx
- 【夯实基础】4.1.3解比例(同步练习)-【金牌名师·培优乐园】六年级下册数学学霸全能同步双基双练测 人教版(含答案).doc
- 【精品】第3单元 角的度量(单元测试题)【基础卷】-2022-2023学年数学四年级上册-人教版(含解析).docx
- 【期末备考易错金卷】二年级数学下册期末考试综合测评历年易错真题优选卷(一)人教版(含答案).doc
- 【提升能力】2.3 三视图的画法(同步练习)-【金牌名师·培优乐园】四年级下册数学学霸全能同步双基双练测 人教版(含答案).doc
- 【单元AB卷】三年级下册数学试题-第三单元 统计 单元检测试题B卷 人教版(含答案).docx
- 【精品原创】小学数学二年级下册期末考试全真模拟+易错题精选汇编卷01 人教版(含答案).doc
- 【金牌名师—学霸夺冠】二年级数学下册期末测评巩固提分+高分突破卷(二)人教版(含答案).doc
- 【名师课堂—易错笔记】二年级数学下册期末综合检测高频易错+名师推荐卷(一)人教版(含答案).doc
- 【精品】二年级下册数学期末冲刺全优卷01 人教版(含答案).doc
- 【提升能力】2.2 根据三视图确认几何体(同步练习)-【金牌名师·培优乐园】四年级下册数学学霸全能同步双基双练测 人教版(含答案).doc
文档评论(0)