公共数据 数据治理规范 数据清洗比对.docx

公共数据 数据治理规范 数据清洗比对.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE

PAGE1

公共数据数据治理规范数据清洗比对

范围

本文件规定了公共数据清洗比对的数据探查、数据质量检查、问题数据修正、数据转换和数据安全等要求。

本文件适用于对归集至省一体化大数据平台的数据开展数据清洗比对工作,各级公共管理和服务机构数据清洗比对工作参照执行。

规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文件。

GB/T2261.1—2003个人基本信息分类与代码第1部分:个人性别代码

GB/T22239—2019信息安全技术网络安全等级保护基本要求

GB/T35273—2020信息安全技术个人信息安全规范

GB/T36344—2018信息技术数据质量评价指标

DB37/T4646.1—2023公共数据数据治理规范第1部分:数据归集

术语和定义

DB37/T4646.1—2023界定的以及下列术语和定义适用于本文件。

数据标准datastandard

数据的命名、定义、结构和取值范围方面的规则和基准。

[来源:GB/T36344—2018,2.8]

概述

对归集至省一体化大数据平台的数据进行清洗比对,通过数据探查、数据质量检查、问题数据修正和数据转换,提升数据质量。数据清洗比对流程应符合附录A。

数据探查

应根据数据库表结构、数据字典等,对归集数据进行数据探查,形成数据探查清单,示例见附录B。

如存在数据探查清单与数据库表结构不一致、数据字典缺失等情况,应进行补充修改。

数据质量检查

检查规则制定

数据质量检查规则应基于GB/T36344中的数据质量评价指标制定,数据质量检查规则应符合国家标准、行业标准和地方标准。

数据质量检查规则应基于业务特征和数据特点制定,并同步至数据质量检查规则库,数据质量检查规则示例见附录C。

数据质量检查规则应通过数据质量检查规则库统筹管理并进行动态更新维护。

质量检查实施

应基于数据探查清单为归集数据配置数据质量检查规则,进行数据质量检查,生成数据质量检查报告。数据质量检查报告包括但不限于数据质量总体情况、表数据质量情况、问题数据情况等,数据质量检查报告示例见附录D。

问题数据修正

数据修正要求

对于存在数据质量问题的归集数据,应根据数据质量检查报告选择合适的数据修正方法,其中:

对于存在字段缺失、记录缺失和数值缺失的数据应选择合适的缺失值修正方法,主要包括删除处理和填充处理;

对于存在逻辑、格式、值域等问题的数据应选择合适的违规值修正方法,主要包括删除处理和修改处理;

对于存在字段重复和记录重复的数据应选择合适的重复值修正方法,主要包括字段排重、依关键字段的记录排重和依重复度的记录排重;

对于存在冲突的数据应选择合适的冲突值修正方法,主要包括字段冲突处理和记录冲突处理;

对于未及时更新的数据,应对数据尽快进行更新。

应将完成修正的数据重新归集至省一体化大数据平台。

数据修正方法

缺失值修正

删除处理

出现以下情况可删除空缺记录:

某条记录的一个或多个关键字段空缺;

某条记录字段缺失率超过设定的值,且缺失值字段重要性低。

填充处理

线下人工校验填充

缺失字段重要性高时可通过线下人工校验等方法进行填充,以保证填充值的准确率,如人工对接相关机构获取信息进行填充。

常量填充

可对空缺值进行常量填充,即使用一个常量填充该字段所有空缺值。

统计填充

可对该字段中非空缺值进行统计,根据统计结果选择空缺值填充内容,要求包括但不限于:

字段类型为数值型时,可使用非空缺值的平均值、最大值、最小值、众数、某分位数等进行填充;

字段类型为日期型和日期时间型时,可使用非空缺值的平均日期或时间、最近日期或时间、最远日期或时间等进行填充;

字段类型为字符型时,可对非空缺值分类并统计出各类别的数量和占比,根据各类别数量或占比选择如最大量、最小量等进行填充。

条件填充

可根据该条记录中其它非空字段的特点,设置关联条件,对空缺值进行填充。设定A字段为待填充的含空缺值的字段,B为关联字段,要求包括但不限于:

B字段与A字段存在强关联关系,可通过B字段推理出A字段的内容,如学位为硕士的记录,对应学历为研究生;

B字段对A字段有约束关系,可通过B字段推导出A字段内容,如通过身份证件号码可推导出年龄、出生日期、性别等。

分析填充

可选择分析字段,设置分析方法进行分析并填充,方法包括但不限于:

关联分析:使用关联分析的挖掘方法,寻找出强关联的字段,根据强关联字段关联情况寻找最可能的值;

聚类分析:使用聚类分析的挖掘方法,将非空数据记录聚类成若干簇,根据簇中字段特点选择最可能的值;

回归分析:

文档评论(0)

薪想事成2022 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档