第十一章 python在数据分析中的应用.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
习题 将MovieLens 1M数据集从zip文件中解压出来之后,可以通过pandas.read_table将各个表分别读到一个pandas DataFrame对象中,对数据进行如下分析操作: (1) 先用pandas的merge函数将ratings跟users合并到一起,然后再将movies也合并进去。 (2) 使用pivot_table方法产生另一个DataFrame,其内容为电影平均得分,行标为电影名称,列标为性别。 (3) 过滤掉评分数据不够500条的电影。 (4) 了解男性观众最不喜欢的电影(对M列升序排列) (5) 得到分歧最大且使用两种方法得到男性观众更喜欢的电影 (6) 通过计算得分数据的方差(var),找出分歧最大的电影(不考虑性别因素) * * * * * * Python程序设计(111100) * 11.1 NumPy简介 11.2 Pandas简介 11.3 数据分析应用 第十一章 Python在数据分析中的应用 数据分析的四大任务 数据准备(读写各种各样的文件格式和数据库) 数据处理(对数据进行清洗、修整、整合等处理以便进行分析) 数据分析(根据分析目的对数据集做合适的数学和统计运算) 数据可视化(展示数据分析成果) * NumPy简介 Numpy(Numerical Python的简称)是Python科学计算的基础包。它提供了以下功能(不限于此): 快速高效的多维数组对象ndarray 用于对数组执行元素级计算以及直接对数组执行数学运算的函数 用于读写硬盘上基于数组的数据集的工具 线性代数运算、傅里叶变换,以及随机数生成 用于将C|C++|Fortran代码集成到Python的工具 * NumPy简介 Numpy的安装 下载符合自己Python版本的安装包/ 双击进行安装 * * 11.1 NumPy简介 11.2 Pandas简介 11.3 数据分析应用 第十一章 Python在数据分析中的应用 pandas简介 pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数,其兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。 它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。 * pandas安装 打开Python所在的文件夹下的Scripts文件夹可以看到可执行程序pip.exe 使用命令提示符输入pip.exe路径,然后输入pip install pandas,回车进行安装 * pandas的数据结构—Series Series是一种类似于一维数组的对象,它是由一组数据(各种NumPy数据类型)以及一组与之相关的数据便签(即索引)组成。 仅由一组数据即可产生最简单的Series: from pandas import Series obj=Series([4,7,7,-3]) obj Series的字符串表现形式为:索引在左边,值在右边。 * pandas的数据结构—Series 如果数据被存放在一个Python字典中,可以直接通过这个字典来创建Series: sdata = {Ohio: 35000, Texas: 71000, Oregon: 16000, Utah: 5000} obj3 = Series(sdata) obj3 Series的索引可以通过赋值的方式就地修改 states = [California, Ohio, Oregon, Texas] obj4 = Series(sdata, index=states) obj4 * pandas的数据结构—Series Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切: = population = state obj4 * pandas的数据结构—DataFrame DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。 DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典。构建DataFrame的办法有很多,最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典: data = {state: [Ohio, Ohio, Ohio, Nevada, Nevada], year: [2000, 2001, 2002, 2001, 2002],

文档评论(0)

好文精选 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档