Python与机器学习-全套PPT课件.pptx

  1. 1、本文档共476页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
项目一 电影数据统计主要教学内容数据分析数据统计分析过程数据分析的两个层次项目:电影数据简要统计与分析数据获取数据清洗数据统计数据可视化熟练掌握Python集成开发环境的使用方法。学会读取CSV本地文件。初步学会Python数据分析常用包的使用方法Pandas、Matplotlib等。掌握使用柱状图来实现数据的可视化,并能对坐标轴、标题、颜色等属性进行设置。了解散点图的画法。(1)数据获取数据来源获取途径内部来源企业内部数据库机器、传感器数据问卷调查外部来源互联网公开信息付费数据网络采集软件CSV: 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。(2)数据解析包括:数据检查数据清洗数据筛选数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。(3)数据分析两个层次第一个层次是用描述统计的方法计算出反映数据集中趋势、离散程度和相关强度的具有外在代表性的指标;第二个层次是在描述统计基础上,用推断统计的方法对数据进行处理,以样本信息推断总体情况,并分析和推测总体的特征和规律。(4)数据呈现:可视化数据可视化是数据内在价值的最终呈现手段,它利用各类图表将杂乱的数据有逻辑的展现出来,使用户找到内在规律,发现问题,从而指导经营决策。项目一:电影数据统计与分析?明确目的最终结果一、数据采集途径:CSV#coding:utf-8import … as …pd.read_csv()#coding:utf-8import pandas as pdfilm = pd.read_csv(film.csv, delimiter=,, names=[date, filmname’, BOR])film.head()第1行:本文件用utf-8编码, utf-8编码支持多种文字,包括中文。第2行:导入pandas包,并给出别名pd。第3行:从film.csv文件中读取数据,数据分隔符为逗号,names给出列名。第4行:打印出前面几条数据,如果在pycharm中可使用print。一、数据采集途径:dataframefilm = pd.read_csv()read_csv()参数有哪些?film是什么数据类型?如何访问返回的结果DataFrame 类型类似于数据库表结构的数据结构film[‘date’]film.datefilm[[‘date’,’filmname’]]film[0:2]film.loc[:,[‘date’,’filmname’]]film.iloc[1:2]film.iloc[1,2]film.iloc[[1,2,5]]取一列:取出date这一列取两列:取出date、filmname列取2行:取出哪几行?你来说一说:取的哪几行?你来说一说:取的哪个单元格?你来说一说:取的哪几行?二、数据清洗film = film.dropna()print(film)第1行:从film中剔除含NaN值的数据行,什么是NaNfilm.dropna()film.fillna(0)film.drop_duplicates()上机时间:15min数据采集数据清洗实验报告步骤1-2三、数据筛选film2 = film[film.film == 老男孩’]print(film2)第1行:数据筛选,字符串相等。film[‘date’] = pd.to_datetime(film[‘date’])film3 = film[ (film[‘date’] ‘2010-5-15’) (film[‘date’] = ‘2010-5-31’)]print(film3)第1行:类型转换,强制转换成日期类型。第2行:数据筛选,且的关系与日期比较。四、数据统计film = film.groupby([‘film’], as_index= False)[‘BOR’].sum()print(film)知识点聚合函数 第1行:数据统计,分组与聚合,对谁分组?对谁聚合?多列分组怎么办?均值:df.groupby([key1’])[‘key2’].mean();求和:df.groupby([key1’])[‘key2’].sum();计数:df.groupby([key1’])[‘key2’].count()上机时间:15min数据筛选数据统计实验报告3-4题五、数据呈现import matplotlib.pyplot as pltplt.bar( film[film],film[BOR’], color=green, w

文档评论(0)

凉州牧 + 关注
实名认证
内容提供者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档