- 1、本文档共113页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
pandas统计分析基础;;pandas是Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。
pandas建造在NumPy之上,所以使得pandas在以NumPy为中心的应用中得以容易的使用,而pandas库在与其它第三方科学计算支持库结合时也能够完美的进行集成。
在Python中,pandas库的功能十分强大,它可提供高性能的矩阵运算。
可用于数据挖掘和数据分析,同时也提供数据清洗功能;
支持类似SQL的数据增、删、查、改等操作,并且带有丰富的数据处理函数;
支持时间序列数据分析功能;支持灵活处理缺失数据等。
;pandas有两个强大的利器。
Series(一维数据)是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成,而仅由一组数据也可产生简单的Series对象。
DataFrame是pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame既有行索引也有列索引,可以被看做是由Series组成的字典。
;文本文件是一种由若干行字符构成的计算机文件,它是一种典型的顺序文件。
CSV是一种用分隔符分隔的文件格式,因为其分隔符不一定是逗号,所以又被称为字符分隔文件。
文本文件以纯文本形式存储表格数据(数字和文本),它是一种通用、相对简单的文件格式,较广泛地应用是在程序之间转移表格数据,而这些程序本身是在其他程序不兼容的格式上进行操作的(往往是私有的、无通用规范的格式)。
大量程序都支持CSV或其变体,所以CSV或其变体可以作为大多数程序的输入和输出格式。;CSV文件根据其定义也是一种文本文件。在数据读取过程中可以使用文本文件的读取函数对CSV文件进行读取。同时,如果文本文件是字符分隔文件,那么可以使用读取CSV文件的函数进行读取。
pandas提供了read_table()函数读取文本文件,提供了read_csv()函数读取CSV文件。;read_table()函数和read_csv()函数具有许多参数,如果有多个expression,那么表达式之间用逗号隔开,基本使用格式如下。
;
;read_table()函数和read_csv()函数的多数参数相同,它们的常用参数及其说明如下表。
;read_table()函数和read_csv()函数的多数参数相同,它们的常用参数及其说明如下表。
;坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制造强国。某公司收集了工业制品销售数据信息,部分信息如下表。
;根据工业制品销售数据表,分别使用read_table()和read_csv()这两个函数读取数据。
read_table()函数和read_csv()函数应注意。
sep参数是指定文本的分隔符,如果分隔符指定错误,那么在读取数据的时候,每一行数据将连成一片。
header参数用于指定列名,如果header参数值是None,那么将会添加一个默认的列名。
encoding代表文件的编码格式,常用的编码格式有UTF-8、UTF-16、GBK、GB2312、GB18030等。
如果编码格式指定错误,那么数据将无法读取,IPython解释器会报解析错误。;文本文件的存储和读取类似,对于结构化数据,可以通过pandas库中的to_csv()方法实现以CSV文件格式存储。
to_csv()函数同样具有许多参数,如果有多个expression,那么表达式之间用逗号隔开,基本使用格式如下。
;to_csv()方法的常用参数及其说明如下表。
;Excel是微软公司的办公软件MicrosoftOffice的组件之一,它可以对数据进行处理、统计分析等操作,广泛地应用于管理、财经和金融等众多领域,其文件扩展名依照程序版本的不同分为以下两种。
MicrosoftOfficeExcel2007之前的版本(不包括2007)默认保存的文件扩展名为.xls。
MicrosoftOfficeExcel2007之后的版本默认保存的文件扩展名为.xlsx。
;pandas库提供了read_excel()函数读取“xls”和“xlsx”两种Excel文件,基本使用格式如下。
;read_excel()函数的常用参数及其说明如下表。
;将数据存储至Excel,可以使用to_excel()方法,基本使用格式如下。
;to_excel()函数的常用参数及其说明如下表。
;在生产环境中,绝大多数的数据都存储在数据库中。pandas库提供了读取与存储关系型数据库数据的函数与方法。除了pandas库外,还需要使用SQLAlchemy库建立对应的数据库连接。
pandas
您可能关注的文档
- Python数据分析与实战(微课版)课件 第1、2章 Python数据分析概述; NumPy数值计算基础.pptx
- Python数据分析与实战(微课版)课件 第5、6章 matplotlib、seaborn、pyecharts数据可视化基础; 使用scikit-learn构建模型.pptx
- Python数据分析与实战(微课版)课件 第7、8章 竞赛网站用户分群; 企业所得税预测分析.pptx
- Python数据分析与实战(微课版)课件 第9、10章 餐饮企业客户流失预测; 基于TipDM大数据挖掘建模平台实现客户流失预测.pptx
- 2025年基金从业人员资格历年真题摘选附带答案.docx
- 2024-2025人美版美术二年级下册期末考试卷及答案 (1) .pdf
- 2025年基金从业人员资格练习题及参考答案一套.docx
- 2025年基金从业人员资格练习题库完美版含答案.docx
- 规范自我主题班会.pptx
- 2025年基金从业人员资格练习题有参考答案.docx
文档评论(0)