- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1
公共数据数据治理规范第2部分:数据清洗比对
1范围
本文件规定了公共数据清洗比对的数据探查、数据质量检查、问题数据修正、数据转换和数据安全等要求。
本文件适用于对归集至省一体化大数据平台的数据开展数据清洗比对工作,各级公共管理和服务机构数据清洗比对工作参照执行。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文件。
GB/T2261.1—2003个人基本信息分类与代码第1部分:个人性别代码
GB/T22239—2019信息安全技术网络安全等级保护基本要求
GB/T35273—2020信息安全技术个人信息安全规范
GB/T36344—2018信息技术数据质量评价指标
DB37/T4646.1—2023公共数据数据治理规范第1部分:数据归集
3术语和定义
DB37/T4646.1—2023界定的以及下列术语和定义适用于本文件。
3.1
数据标准datastandard
数据的命名、定义、结构和取值范围方面的规则和基准。
[来源:GB/T36344—2018,2.8]
4概述
对归集至省一体化大数据平台的数据进行清洗比对,通过数据探查、数据质量检查、问题数据修正和数据转换,提升数据质量。数据清洗比对流程应符合附录A。
5数据探查
5.1应根据数据库表结构、数据字典等,对归集数据进行数据探查,形成数据探查清单,示例见附录
B。
5.2如存在数据探查清单与数据库表结构不一致、数据字典缺失等情况,应进行补充修改。
6数据质量检查
6.1检查规则制定
2
6.1.1数据质量检
查规则应基于GB/T36344中的数据质量评价指标制定,数据质量检查规则应符合国家标准、行业标准和地方标准。
6.1.2数据质量检查规则应基于业务特征和数据特点制定,并同步至数据质量检查规则库,数据质量检查规则示例见附录C。
6.1.3数据质量检查规则应通过数据质量检查规则库统筹管理并进行动态更新维护。
6.2质量检查实施
应基于数据探查清单为归集数据配置数据质量检查规则,进行数据质量检查,生成数据质量检查报告。数据质量检查报告包括但不限于数据质量总体情况、表数据质量情况、问题数据情况等,数据质量检查报告示例见附录D。
7问题数据修正
7.1数据修正要求
7.1.1对于存在数据质量问题的归集数据,应根据数据质量检查报告选择合适的数据修正方法,其中:
a)对于存在字段缺失、记录缺失和数值缺失的数据应选择合适的缺失值修正方法,主要包括删除处理和填充处理;
b)对于存在逻辑、格式、值域等问题的数据应选择合适的违规值修正方法,主要包括删除处理和修改处理;
c)对于存在字段重复和记录重复的数据应选择合适的重复值修正方法,主要包括字段排重、依关键字段的记录排重和依重复度的记录排重;
d)对于存在冲突的数据应选择合适的冲突值修正方法,主要包括字段冲突处理和记录冲突处理;e)对于未及时更新的数据,应对数据尽快进行更新。
7.1.2应将完成修正的数据重新归集至省一体化大数据平台。
7.2数据修正方法
7.2.1缺失值修正
7.2.1.1删除处理
出现以下情况可删除空缺记录:
a)某条记录的一个或多个关键字段空缺;
b)某条记录字段缺失率超过设定的值,且缺失值字段重要性低。
7.2.1.2填充处理
7.2.1.2.1线下人工校验填充
缺失字段重要性高时可通过线下人工校验等方法进行填充,以保证填充值的准确率,如人工对接相关机构获取信息进行填充。
7.2.1.2.2常量填充
可对空缺值进行常量填充,即使用一个常量填充该字段所有空缺值。
7.2.1.2.3统计填充
3
可对该字段中非空缺
值进行统计,根据统计结果选择空缺值填充内容,要求包括但不限于:
a)字段类型为数值型时,可使用非空缺值的平均值、最大值、最小值、众数、某分位数等进行填充;
b)字段类型为日期型和日期时间型时,可使用非空缺值的平均日期或时间、最近日期或时间、最远日期或时间等进行填充;
c)字段类型为字符型时,可对非空缺值分类并统计出各类别的数量和占比,根据各类别数量或占比选择如最大量、最小量等进行填充。
7.2.1.2.4条件填充
可根据该条记录中其它非空字段的特点,设置关联条件,对空缺值进行填充。设定A字段为待填充的含空缺值的字段,B为关联字段,要求包括但不限于:
a)B字段与A字段存在强关联关系,可
文档评论(0)