数据分析技术第4章.pptxVIP

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第四章Excel数据加工与处理北京西普阳光教育科技股份有限公司

目录Contents01数据审核02数据筛选03分类汇总04数据透视表0506合并计算章节小结

数据审核01

数据审核有效性审核主要是检查数据的有效性。一致性审核主要检查数据之间的一致性问题,一致性审核可以基于不同问题或同一问题的不同部分之间的结构关系,逻辑性和合法性来进行。分布性审核主要是试图通过数据的分布,来辨识记录是否远远脱离分布的正常范围,即是否为离群值。分布性审核主要是用来发现和确认可疑的数据记录。分布性审核一致性审核有效性审核--excludefile文件名

数据有效性验证操作步骤:(1)选中需要验证的数据区域,单击“数据”→“数据工具”→“数据验证”选项,弹出“数据验证”对话框。(2)单击“数据”→“数据工具”→“数据验证”→“圈释无效数据”选项,可将不合要求数据的显示出来。(3)在数据输入前,也可以先对单元格内容的取值范围进行设置,同时可以设置“输入信息”、“”“出错警告”等信息,设置完成后,再次输入数据时,会出现标签提示,如有输入数据不合理,可弹出警告等。

数据有效性验证

处理重复值数据寻找重复值方法:(1)“排序”寻找重复值单击“数据”→“排序与筛选”→“排序”

处理重复值数据寻找重复值方法:(2)“条件格式”寻找重复值“开始”→“样式”→“条件格式”

处理重复值数据寻找重复值方法:(3)函数计算寻找重复值countif

处理缺失数据1、更改显示格式修复部分数据Excel数据自定义格式区段数代码结构1格式代码作用于所有类型的数值2第1区段作用于正数和零值,第2区作用于负数3第1区段作用于正数,第2区段作用于负数,第3区须作用于零值4分别作用于:正数、负数、零值和文本

处理缺失数据2、确定性插补数据(1)均值插补:用插补类的均值代替缺失值。(2)推理插补:通过对已有数据进行推理,来确定插补的值。(3)回归插补:使用辅助信息及其他记录中的有效数据建立一个回归模型,该模型表明两个或多个变量之间的关系。(4)热平台插补:使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致的数据。

处理缺失数据3、随机性插补数据有时,对一些缺失数据无法通过确定性插补方法进行修复,而又不能过多地删除样本数据,这时可以通过指定一个随机因素,生成一个插补值来修复缺失的数据。E436=E435*(1-INT(RAND()*(24-8)+8)/100),可以得到一个接近值随机数

处理离群值何为离群值?所谓离群值是指在数据中有一个或几个与其他数值相比差异较大的值。在进行数据预处理时,应该先检测离群值,再进行相应的处理。一般处理的方法有:(1) 删除:最简单的方法以就掐头去尾,将离群值去掉;(2) 调整权数:降低离群值的权数,使它们的影响变小。

数据筛选02

自动筛选操作步骤:(1)选中需要筛选的数据,单击“数据”→“排序与筛选”→“筛选”,可看到数据表头字段名上出现下拉框(2)如筛选条件是“男性、姓李、80后员工”,则单击“性别”下拉框,弹出框,选择“男”;单击“姓名”下拉框,弹出框,单击“文本筛选”→“开头是”,弹出“自定义自动筛选方式”对话框,填上开头是“李”即可;单击“出生年月”下拉框,弹出框,单击“日期筛选”→“自定义筛选”弹出“自定义自动筛选方式”对话框,选择“在以下日期之后或与之相同”,值填上“1980-1-1”。

高级筛选自动筛选适合单一条件,或多个条件的综合,但是如果遇到多条件之间是逻辑或的关系,自动筛选就无法完成了,这时,就可以使用高级筛选。“高级筛选”的操作要点是:对“条件区域”的设置。“条件区域”设置:“或”的关系“与”的关系

高级筛选选择“数据”→“排序与筛选”→“高级”,弹出“高级筛选”对话框,方式”是指筛选的结果显示的位置,“列表区域”是指需要筛选的原数据表,“条件区域”是要求筛选的条件表达区域,“复制到”是指结果显示的位置。

分类汇总03

分类汇总分类汇总是Excel提供的分类、统计计算相关数据行的工具,通过分类汇总与总计来快速计算相关数据行。例:统计汇总近四年来每类农作物总种植面积与总产量。操作步骤:(1)对数据按农作物进行排序,使得同一种农作物数据在一起;(2)分类汇总,单击“数据”→“分级显示”→“分类汇总”,弹出“分类汇总”对话框,要求汇总每类农作物的种植面积与总产量,则分类字段为“作物类型”,汇总方式是“求和”,选定汇总项是“种植面积”、“总产量”,替换当前分类汇总,结果显示在数据下方。

分类汇总如果想再细分,汇总出“每种每年农作物的总种植面积与总产量”,可以采用嵌套的分类汇总,则需要在原先分类汇总的基础上,二次分类汇总,分类字段选择“年

文档评论(0)

可爱的家人6536 + 关注
实名认证
文档贡献者

可爱的家人

1亿VIP精品文档

相关文档