- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据财务分析爱岗敬业诚实守信坚持准则提高技能廉洁自律客观公正参与管理强化服务
项目三数据清洗与处理任务一数据清洗概述
爱岗敬业诚实守信一、什么是数据清洗?数据分析结果的优劣主要依赖于数据的优劣。我们在网上获取的数据往往存在着许多问题,如数据缺失、数据重复、数据异常等,直接对这些数据进行统计分析,会导致分析结论偏离实际。因此,在数据分析之前通常需要先对数据进行清洗。数据清洗是对数据进行重复审查和校验的过程,目的在于通过预定的清理规则将不符合要求的数据转化为满足质量要求的数据。
廉洁自律客观公正020103重复值处理:删除缺失值处理:删除、填充其他异常处理:数据中特殊字符删除、数据格式更改、无法识别数据处理、英文大小写转换等。二、数据清洗主要内容
坚持准则提高技能一般在数据清洗之前,首先必须明确数据存在哪些问题,再针对各问题逐一击破期间营业收入营业成本税金及附加销售费用管理费用财务费用01月80aN0200.012月NaNNaNNaNNaNNaNNaN23月75aN0200.034月75aN0200.045月8500045000NaN0200.056月7500045000NaN0NaN67月7500045000NaN0NaN通过观察以上DataFrame,分析数据问题如下:1.重复行:行索引2和3、5和6数据重复。2.缺失值:NaN部分。3.存在异常符号:¥、逗号、空格。了解问题之后,就可以进一步进行数据清洗。二、数据清洗主要内容
参与管理强化服务清洗规则:1.一个清洗步骤就用一条清洗规则;2.多拆分清洗步骤,每个步骤备份数据,方便出问题时回退;3.一般先做全局清洗(即对全部数据),再做个别字段的清洗;4.清洗的输出结果不要直接放在正式数据流\正式文件中,先用测试环境\临时文件充分验证后上正式环境。三、数据清洗工具
爱岗敬业诚实守信为了提升清洗效率,在不影响正常要分析的数据前提下,将多个字段都存在的问题一次性清洗掉,可以使用全局规则。全局清洗一般放在其他清洗规则前优先执行。全局规则规则描述非法字符清洗对表中所有记录中含有以下字符的内容进行删除。非法字符包括:\/*?:|空格清理对表中所有记录中的空格都进行统一删除-(仅有)替换为Null将字段记录值仅含有‘-’的内容进行删除,存为空记录-(仅有)替换为0将字段记录值仅含有‘-’的内容进行删除,存为’0’空格(仅有)替换为Null将字段记录值仅含有空格的内容进行删除,存为空记录空格(仅有)替换为0将字段记录值仅含有空格的内容进行替换,存为‘0’NULL,表示不存在,是一种特殊的数据类型,0,数字类型或整型,存储的值为0,数据类型为数字类型,如果替换为NULL,则该单元格不参与后续计算,替换为0,则单元格参与后续计算。三、数据清洗工具
廉洁自律客观公正按字段清洗规则:工具提供了字符替换、字段切分、字段合并、缺失值填补四种清洗规则。三、数据清洗工具字符替换:可以将选定字段的值进行替换。123字段切分:将选定字段切分为多个字段,相当于拆分列。字段合并:将选定的多个字段合并为一个字段,相当于合并列。缺失值填补:将选定字段的缺失值进行自动填充,有均值填补、中位数填补、丢失空值记录、填补为0的四种方式。4
坚持准则提高技能四、任务实战-全局清洗规则任务1:特殊字符清洗使用全局清洗规则对整张表的数据空格进行清洗B公司是一家销售办公用品、办公家具和办公电子设备的公司,有多家直营店,每月月底,各直营店会向财务部提供本月的订单详情表。现在公司的财务数据分析师手上有一份汇总多年的订单详情表。通过观察分析,表中有一些空值和“-”,有的单元格还有特殊字段。对客户ID、产品名称等数据需要进一步数据处理,才可以准确的进行分析。
参与管理强化服务四、任务实战-全局清洗规则任务2:特殊字符清洗将数据表的“*”清洗掉。
爱岗敬业诚实守信四、任务实战-按字段清洗规则任务3格式内容清洗将数据表中客户ID字段中的客户名称与客户ID进行切分。
谢谢大家爱岗敬业诚实守信廉洁自律客观公正坚持准则提高技能参与管理强化服务
文档评论(0)