- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
课时1数据整理与计算
课时目标
1.学会根据实际需求,对表格数据进行简单整理、计算。2.学会使用数据排序功能,把数据变为有序。3.学会使用数据筛选功能,筛选出符合要求的数据。
1.数据整理的目的
数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
2.常见的数据问题
数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。
(1)数据缺失问题:最简单处理的方法是忽略含有缺失值的实例或属性。还可以采用平均值、中间值或概率统计值来填充缺失值。
(2)数据重复问题:检测数据集中的重复数据可以从字段和记录两个方面着手,检查到重复数据,在审核后可进行合并或删除等处理。
(3)异常数据:数据集中不符合一般规律的数据,可能是要去掉的噪声数据,也可能是含有重要信息的数据对象。
(4)逻辑错误问题:数据集中的属性值与实际值不符,或违背业务规则或逻辑。
(5)格式不一致问题:对于不同来源的数据中存在格式不一致的情况,可根据后续分析和挖掘的需要进行数据转换。
3.常用表格数据处理和统计分析工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。
4.使用Excel软件进行数据计算的一般方法
分析表格数据→抽象计算模型→计算→分析计算结果,描述其含义。
5.数据计算
数据计算是数据处理的常用方法之一。在Excel软件中,主要有自定义公式和函数两种方式。
(1)自定义公式
以“=”开头,由常数、函数、单元格引用和运算符组成的式子。
(2)函数
函数是预定义的公式,通过使用参数按特定顺序或结构进行计算。常用函数有:sum、average、min和max等。
6.数据排序
(1)分为单个关键字排序和多关键字排序。
(2)排序时选择的数据区域必须是连续的。
(3)排序时根据情况选择有标题行或无标题行排序。
7.数据筛选(自动筛选)
筛选后表格中显示满足条件的记录,其他记录将被隐藏,筛选的范围是表格中的所有记录。自动筛选的方式主要有:
(1)自定义筛选。
(2)10个最大(小)的值,单位可以是项或百分比。
(3)多条件筛选。
1.数据整理的目的是检测和修正错漏的数据,整合数据资源,规整数据格式,提高数据的质量。常见的数据问题有数据缺失、数据重复、数据异常,存在逻辑错误、格式不一致或达不到分析要求等。
2.数据计算是数据处理的常用方法之一。日常简单的数据处理可以使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。在Excel软件中,可以应用公式进行数据的计算。公式是以“=”号开头,由常数、函数、单元格引用和运算符组成的式子。
例1下列关于数据整理的说法,正确的是 ()
A.数据集中的缺失值一般用任意值填充
B.数据集中的异常数据须直接删除或忽略
C.数据集中的重复数据可进行合并或删除
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
答案C
解析数据处理的核心是数据,数据的质量直接影响数据分析的结果。A选项,缺失数据可以忽略或采用平均值、中间值或概率统计值进行填充,不能用任意值填充;B选项,异常数据可能是要去掉的噪声数据或含有重要信息的数据,需根据具体情况进行分析判断;D选项,格式不一致的数据需要根据后续分析和挖掘的需要进行数据转换。
变式训练1小明在整理全国房价数据时,发现上海市的房价数据缺失,下列做法合理的是 ()
A.产生一个全国房价平均值,作为上海房价
B.取全国房价的最高值,作为上海房价
C.将上海从数据表中剔除
D.找出北京、深圳等同为一线城市的房价数据,求出中间值作为上海房价
答案D
解析缺失值问题最简单的处理方法是忽略含有缺失值的实例或属性。但这样处理可能造成数据集不完整,致使后继的统计分析结果出现偏差。因此较好的方法是根据数据间的关联性估计较准确的缺失值,并通过合适的方法对缺失值进行填充。通常采用平均值、中间值或概率统计值来填充缺失值。
例2小王搜集了近5年各省(市)生产总值数据,并用Excel软件进行处理,如图a所示。
图a
请回答下列问题:
(1)小王对收集的数据先进行了数据整理,以下关于数据整理说法错误的是(单选,填字母)。?
A.对于数据缺失的问题,最简单的处理方法是忽略含有缺失值的实例或属性
B.对于重复数据,可以在进一步审核的基础上进行合并或删除等处理
C.逻辑错误的数据是指数据集中不符合一般规律的数据对象
(2)为计算图a中的“相对2016年的增长率(%)”,小王已经正确计算了单元格G4中的数据。他希望将单元格G4中的公式向下自动填充至单元格G34
您可能关注的文档
- 第一章 课时2 数据采集与编码(一) 课件(共56张ppt)浙教版(2019)必修1.pptx
- 第一章 课时3 数据采集与编码(二) 课件(共70张ppt)浙教版(2019)必修1.pptx
- 第一章 课时4 数据管理与安全、数据与大数据 课件(共78张ppt)浙教版(2019)必修1.pptx
- 第一章 验收卷(一) 数据与信息 课件(共27张ppt)浙教版(2019)必修1.pptx
- 课时1 Python程序设计语言基础 课件(共64张ppt)浙教版(2019)必修1.pptx
- 课时1 人工智能的概念与发展 课件(共49张ppt)浙教版(2019)必修1.pptx
- 课时1 数据整理与计算 课件(共41张ppt)浙教版(2019)必修1.pptx
- 课时1 算法的概念及描述 课件(共42张ppt)浙教版(2019)必修1.pptx
- 课时2 Python基本数据结构 课件(共74张ppt)浙教版(2019)必修1.pptx
- 课时2 大数据处理的基本思想与架构 课件(共42张ppt)浙教版(2019)必修1.pptx
- 北京市朝阳区北京市第八十中学2024-2025学年七年级上学期分班考数学试卷.docx
- 第一次月考测评卷(四)(试题)-2024-2025学年六年级语文上册统编版.docx
- 浙江省杭州市西湖区文理中学2024-2025学年上学期 10月七年级数学独立作业 .docx
- 期中(试题) -2024-2025学年冀教版(三起)英语六年级上册.docx
- 第二十二章二次函数 单元测试 2024-2025学年人教版数学 九年级上册 .docx
- 北京市 丰台区 北京市第十二中学2024-2025学年七年级上学期分班考数学试卷.docx
- 2024-2025学年人教版七年级上册 第一次月考数学模拟试卷.docx
- 第一章 丰富的图形世界 章节检测卷 2024-2025这年北师大版七年级数学上册 .docx
- 山东省聊城市临清市京华中学2024-2025学年八年级上学期第一次月考数学试题.docx
- 第3章整式及其加减 单元综合测试题 2024-2025学年北师大版七年级数学上册 .docx
文档评论(0)