Python数据预处理（微课版）习题答案.docxVIP

下载本文档

183
0
约4.3千字
约 10页
2023-05-17 发布于上海
举报
版权申诉

Python数据预处理（微课版）习题答案.docx

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

单元1 课后习题答案一、填空题 1、数据 2、10TB 3、数据质量 4、数据变换 5、Python 二、判断题 1、错。 2、错。 3、对 4、对 5、错。三、单选题 1、C 2、D 3、A 4、C 5、D 6、D 四、问答题 ① 数据合并主要是将存储在多张表中的数据合并为一张表，便于进行数据分析。通过数据合并，可以将关联的数据信息存入一张表中。 ② 数据清洗就是对“脏”数据进行的检查与纠正，目的包括处理缺失的值，解决数据的重复和不一致性等。 ③ 数据变换主要是将数据变换成便于数据分析的形式。数据变换是将数据从一种类型/格式变换为另一种类型/格式，或按照指定的映射变换为另一种数据的过程。单元2 课后习题答案一、填空题 1、Series DataFrame 2、标签 3、切片 4、字典 5、标签下标二、判断题 1、对 2、错。Series是一种类似于一维数组的对象， DataFrame是一种二维表格型的数据结构。 3、对 4、对 5、错。DataFrame是由行索引、列标签和数据组成的三、单选题 1、A 2、D 3、C 4、B 四、编程题 import pandas as pd df=pd.DataFrame({age:[25,30,22,28], gender:[male,female,None,male], salary:[4000,8000,3000,5000] }) df[df.isnull().T.any()] # 筛选出包含空值的行 df.loc[2:2,[gender]] = female # 任务 = 1 \* GB3 ① df.loc[4]=[35,male,10000] # 任务 = 2 \* GB3 ② # 任务 = 3 \* GB3 ③ df.sort_values(by=salary,axis=0,ascending=False,inplace=True) df.head(3) # 任务 = 4 \* GB3 ④ df.sort_index(axis=0,ascending=True,inplace=True) #按行索引排序 df[df[gender]==male] df.loc[3:4,[gender,salary]] # 任务 = 5 \* GB3 ⑤ 单元3 课后习题答案一、填空题 1、聚焦网络爬虫，主题网络爬虫 2、深层网页 3、Request （请求）和Response（响应） 4、CSV（或Comma-Separated Values） 5、JSON对象，JSON数组二、判断题 1、对 2、对 3、错 4、错 5、对三、单选题 1、A 2、D 3、D 4、D 5、C 四、编程题 import pandas as pd nme = [abc, xyz] cla = [1, 2] ag = [15,16] # 创建字典 dict = {name: nme, class: cla, age: ag} df = pd.DataFrame(dict) # 保存 dataframe df.to_csv(name.csv) 单元4 课后习题答案一、填空题 1、堆叠合并主键合并重叠合并 2、横向堆叠合并纵向堆叠合并交叉堆叠合并 3、左连接右连接内连接外连接二、判断题 1、错。缺失的数据用NaN填充。 2、对。 3、对。 4、对。 5、错。内连接是以左右表的键值的交集进行合并。 6、错。用一张表的数据来填充另一张表的缺失数据的方法就叫重叠合并。三、单选题 1、B 2、D 3、A 4、C 5、D 四、编程题 import pandas as pd df_users = pd.read_csv(data/nums.csv,encoding=gbk) #读取用户使用数量 df_popu = pd.read_csv(data/population.csv,encoding=gbk) #读取人口总量 # 按地区合并用户数量和人口总量 df_all = df_users.merge(df_popu,on=地区) # 计算人口占比 df_all[人口占比] = (df_all[用户数量]/df_all[人口数]) * 100 # 按人口占比进行降序排列 df_all.sort_values(by=人口占比,axis=0,ascending=False,inplace=True) df_all.head() # 查看人口