数据清洗方法20161020解读.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目 录 一、数据清洗工作流程 二、数据清洗内容 三、数据清洗规则 四、数据清洗策略 五、证件号码清洗报告 一、数据清洗工作流程 (一)必录项及重要指标项空缺 (二)指标值异常 (三)指标值之间逻辑关系异常 (四)业务逻辑关系异常 (五)贫困户、贫困人口重复 二、数据清洗内容 (一)必录项及重要指标项空缺 1.贫困户识别标准为空 2.贫困户属性为空 3.主要致贫原因为空 4.脱贫状态标识为空 5.行政区划为空 6.证件号码为空 三、数据清洗规则 (一)必录项及重要指标项空缺 7.文化程度为空 8.健康状况为空 9.劳动技能为空 10.务工状况为空 11.在校生情况为空 …… 三、数据清洗规则 (二)指标值异常 1.证件号码不符合校验规则 2.其他致贫原因超过两项 3.出生日期与身份证号中的出生日期不符 三、数据清洗规则 (二)指标值异常 4.务工时间不符合指标采集规范 5.人均纯收入为0或超5位数 6.与村主干路距离超过50公里 …… 三、数据清洗规则 (三)指标值之间逻辑关系异常 1.务工状况为“非务工”,务工时间不为0 2.贫困户无务工人员,却有工资性收入 3.贫困人口丧劳,有外出务工情况 三、数据清洗规则 (三)指标值之间逻辑关系异常 4.年收入逻辑关系异常 5.人均纯收入逻辑关系异常 6.低保贫困户无低保金 三、数据清洗规则 (三)指标值之间逻辑关系异常 7. “与户主关系”和“性别”不符 8.贫困户“家庭人数”与实际人口数不符 9.贫困户存在多个户主 10. 残疾人无残疾证 三、数据清洗规则 (四)业务逻辑关系异常 1.贫困户家庭无在校生,主要致贫原因为“因学” 2.贫困户家庭无残疾人,主要致贫原因为“因残” 3.贫困户家庭成员健康状况全部为“健康”, 主要致贫原因为“因病”。 三、数据清洗规则 (四)业务逻辑关系异常 4.返贫户在上一年度贫困户属性非“已脱贫” 5.贫困户空挂 7.脱贫户人均纯收入低于国家贫困标准 8.年龄在16-60周岁的健康人口劳动能力为“丧劳” 9.五保户(含五保贫困户、五保农户)存在年龄在16-60周岁的劳动力 三、数据清洗规则 (五)贫困户、贫困人口重复 (1)姓名不一致,如:王思妍,王恩妍 (2)性别不一致 (3)文化程度不一致 (4) …… 三、数据清洗规则 (五)贫困户、贫困人口重复 (5)多省交界处,户籍地混乱 三、数据清洗规则 (6)仅“识别标准”不同 (7)仅“家庭人员数量”不同 (8)家庭成员互为户主 (9)拆户分户情况 (10)嫁娶、改嫁,户口迁移情况 三、数据清洗规则 (一)后台批量处理 1.指标值含有空字符 2.指标值含有特殊字符 3.非指标体系代码选项 4.指标值间存在逻辑关系, 如错误出生日期可从正确身份证中提取 并做更新处理 四、数据清洗策略 (二)前台核实修改 1.提取待清洗数据逐级下发 2.基层扶贫部门核实修改 (三)前台采集补录 1.将应填未填项逐级下发 2.基层扶贫部门采集录入 四、数据清洗策略 (一)清洗内容 1.证件号码重复 2.证件号码有

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档