新媒体数据分析与应用 课件 第 4 章 新媒体数据的处理.pptx

新媒体数据分析与应用 课件 第 4 章 新媒体数据的处理.pptx

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
新媒体数据分析与应用 第4章:新媒体数据的处理 本章提纲 CONTENTS 4.1 数据清洗 第4章:新媒体数据的处理 4.1 数据清洗 数据清洗指的是对数据进行重新检查,发现其中常见的错误,其目的主要在于删除重复信息、纠正存在的错误,提高数据分析的准确性。 数据清洗的基本流程是先检查数据中可能存在的错误,包括检查数据与元数据的一致性,处理重复值和缺失值等。因为从数据库中收集来的数据是从多个业务系统中抽取而来的,其中包含历史数据,这样就避免不了有的数据是错误数据、有的数据之间有冲突,这些错误的或有冲突的数据显然是人们不想要的。 数据清洗就是把这类数据清洗掉,过滤不符合要求的数据,具体而言就是将多余的重复的数据筛选清除,将确实的数据补充完整,将错误的数据纠正或删除。对清洗后的数据进行数据分析,能够得到较为准确的结论,从而能够为管理决策提供支持。 第4章:新媒体数据的处理 4.1.1 重复数据的处理——自定义需要处理的数据表 首先,在Excel中自定义一个带有重复数据和缺失数据的数据表,如下图所示。图中数据表的第二列含有缺失数据,第三列含有重复数据。 图4-1 第4章:新媒体数据的处理 4.1.1 重复数据的处理——识别重复数据 在处理重复数据之前,需要先对数据表中的重复数据进行识别,尤其是当数据量特别大的时候,这一步尤为重要。在Excel中共有四种识别重复数据的方法。 countif函数的作用是对区域中满足单个指定条件的单元格进行计数,其基本格式为countif (range,criteria),range表示想要计算的单元格范围,criteria表示计算条件,其形式可以为数字、表达式或文本。 如图4-1中所示,在D2单元格中输入函数表达式:=COUNTIF(C1:C4,C1),然后拖动单元格右下角的“+”号至D5单元格,显示结果如图4-2所示。 1.函数法(使用countif函数) 图4-2 第4章:新媒体数据的处理 4.1.1 重复数据的处理——识别重复数据 在Excel中也可以直接使用功能导航区域的筛选功能直接筛选出非重复值,首先选择数据单元格区域,然后选择“数据”选项卡,找到“高级”对话框。在弹出的对话框中选择“将筛选结果复制到其他位置”选项,复制到单元格,同时勾选“选择不重复的记录”复选框,单击“确定”按钮。 2.高级筛选法 结果: 第4章:新媒体数据的处理 4.1.1 重复数据的处理——识别重复数据 使用条件格式法的突出显示重复值的功能也可将重复值显示出来。“开始”选项卡下依选择“条件格式”→“突出显示单元格规则”→“重复值”,在弹出的对话框中单击“确定”按钮。 3.条件格式法 重复值将显示为浅红填充色的深红色文本 利用条件格式法处理重复值的步骤 第4章:新媒体数据的处理 4.1.1 重复数据的处理——识别重复数据 数据透视表法的原理类似于函数法,通过计算数据重复的频次,出现2次及以上就说明该数据属于重复项。 其操作过程具体如下,在E1单元格单击“插入”选项卡,选择“数据透视表”选项,如下图: 4.数据透视表法 利用数据透视表法处理重复值的步骤一 第4章:新媒体数据的处理 4.1.1 重复数据的处理——识别重复数据 在弹出的对话框中,选择要分析的区域为C1:C5,选择放置数据透视表的位置为E1,单击“确定”按钮,如下图。 单击生成的数据透视表,在右方“数据透视表字段”中勾选“收益(万元)”选项,再将“收益(万元)”选项拖动到“数值”区域,最后单击“数值”下拉按钮,在弹出的下拉列表中选择“值字段设置”为“计数”,其结果如下图所示。 4.数据透视表法 弹出“创建数据透视表”对话框 利用数据透视表法处理重复值的结果图 第4章:新媒体数据的处理 4.1.1 重复数据的处理——删除重复数据 利用上述四种方法中的任意一种即可查看数据中的重复数据,之后便可采取删除重复数据的操作。在Excel中删除重复数据的具体操作如下:首先选择所要处理的单元区域,在上方导航窗口选择“数据”选项卡,在“数据工具”组中选择“删除重复项”选项。 删除重复数据的步骤一 第4章:新媒体数据的处理 4.1.1 重复数据的处理——删除重复数据 在弹出的对话框中选择“扩展选定区域”→“删除重复项”→只勾选“列”→“确定”,最后Excel将弹出提示对话框,提示有多少重复值被删除,有多少唯一值被保留。 删除重复数据的结果图 第4章:新媒体数据的处理 4.1.2 缺失数据的处理 缺失数据是指数据中某个或某些属性的值存在缺失或不完整。缺失值产生的原因多种多样,例如,由于数据收集或保存时造成的数据缺失,人的主观失误、历史局限或有意隐瞒造成的数据缺失等。 1.概念 识别缺失数据的具体操作如下:

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档