- 1、本文档共48页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据的读取与处理;;数据的读取是进行数据预处理、数据建模和分析的基础。对于不同的数据文件,pandas提供了不同函数进行读取。
pandas内置了10余种读写函数。常见的数据文件格式有3种形式,分别是CSV文件、Excel文件和数据库。;CSV文件是以纯文本形式存储表格数据(数字和文本)。
CSV文件由任意数目的记录组成,记录间以某种换行符分隔。每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。
CSV文件是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。;pandas提供了read_csv函数来读取csv文件。
pandas.read_csv(filepath_or_buffer, sep=\t, header=infer, names=None, index_col=None, dtype=None, engine=None, nrows=None)
;文本文件的存储和读取类似,结构化数据可以通过pandas中的to_csv函数实现以csv文件格式存储文件。
DataFrame.to_csv(path_or_buf=None, sep=,, na_rep=, columns=None, header=True, index=True, index_label=None, mode=w, encoding=None)
;读取csv数据;读取Excel文件数据;将文件存储为Excel文件,可以使用to_excel方法。其语法格式如下。
DataFrame.to_excel(excel_writer=None, sheetname=None, na_rep=, header=True, index=True, index_label=None, mode=w, encoding=None)
to_excel函数和to_csv函数的常用参数基本一致,区别之处在于指定存储文件的文件路径参数名称为excel_writer,并且没有sep参数。此外,还增加了一个sheetnames参数,用于指定存储的Excel Sheet的名称,默认为sheet1。
;读取数据库数据;read_sql_table只能够读取数据库的某一个表格,不能实现查询的操作。
pandas.read_sql_table(table_name, con, schema=None, index_col=None, coerce_float=True, columns=None)
read_sql_query则只能实现查询操作,不能直接读取数据库中的某个表。
pandas.read_sql_query(sql, con, index_col=None, coerce_float=True)
read_sql是两者的综合,既能够读取数据库中的某一个表,也能够实现查询操作。
pandas.read_sql(sql, con, index_col=None, coerce_float=True, columns=None)
;读取数据库数据;将DataFrame数据写入数据库中,同样也要依赖SQLAlchemy的数据库连接。数据库数据读取有3个函数,但数据存储则只有一个to_sql()方法。
DataFrame.to_sql(name, con, schema=None, if_exists=fail, index=True, index_label=None, dtype=None)
;读取数据库数据;;(1)时间校验
时间不一致是指数据在合并或联立后时间字段出现时间范围、时间粒度、时间格式和时区不一致等情况。
时间范围不一致通常是不同表的时间字段中所包含的时间的取值范围不一致。如下两张表的时间字段的取值范围分别为2020年3月2日至2020年3月29日和2020年3月15日至2020年4月18日,此时如果需要联立两张表,那么需要对时间字段进行补全,否则将会产生大量的空值或导致报错。;时间粒度不一致通常是由于在数据采集时没有设置统一的采集频率,如系统升级后采集频率发生了改变,或不同系统间的采集频率不一致,导致采集到的数据的时间粒度不一致。;时间格式不一致通常是不同系统之间设置时间字段时的采用的格式不一致导致时间格式不一致的情况,尤其是当系统中的时间字段使用字符串格式的时候。;时区不一致通常是由于在数据传输时的设置不合理,所以导致时间字段出现不一致的情况,如由于在设置海外的服务器时没有修改时区,所以导致数据在传输回本地的服务器时因时区差异造成时间不一致。;同名异义:两个名称相同的字段所代表的实际意义不一致。
如下表所示,数据源A中的ID字段和数据源B中的ID字段分别描述的是商品编号和订单编号
您可能关注的文档
- Python数据可视化实战PPT课件(共8章)第1章 Python数据可视化概述.pptx
- Python数据可视化实战PPT课件(共8章)第3章 Matplotlib数据可视化基础.pptx
- Python数据可视化实战PPT课件(共8章)第4章 seaborn绘制进阶图形.pptx
- Python数据可视化实战PPT课件(共8章)第5章 pyecharts交互式绘图.pptx
- Python数据可视化实战PPT课件(共8章)第6章 广电大数据可视化项目实战.pptx
- Python数据可视化实战PPT课件(共8章)第7章 新零售智能销售数据可视化实战.pptx
- Python数据可视化实战PPT课件(共8章)第8章 基于TipDM大数据挖掘建模平台实现广电大数据可视化项目.pptx
- 高三语文一轮复习 .pdf
- 高考生物学模拟试题精编新课标卷(七)-2024届高三大二轮生物学 (新教 .pdf
- 高中政治文化传承与创新知识点 .pdf
文档评论(0)