DB52T 1540.4-2021 政务数据 第4部分:数据质量评估规范(1).doc

DB52T 1540.4-2021 政务数据 第4部分:数据质量评估规范(1).doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ICS35.020

CCSL70

贵州省

DB52

地方标准

DB52/T1540.4—2021

政务数据第4部分:数据质量评估规范

Governmentdata—part4:dataqualityassessmentspecification

2021-08-18发布2021-12-01实施

贵州省市场监督管理局发布

1

DB52/T1540.4—2021

政务数据第4部分:数据质量评估规范

1范围

本文件规定了政务数据质量评估的指标、方法、流程和结果应用等要求。

本文件适用于政务数据质量评估工作

2规范性引用文件

本文件没有规范性引用文件。

3术语和定义

下列术语和定义适用于本文件。

3.1

数据data

对事实、概念或指令的一种形式化表示,适用于以人工或自动方式进行通信、解释或处理。

[来源:GB/T35295-2017,2.2.1]

3.2

政务部门governmentdepartment

各级地方党委、人大、政府、政协、法院、检察院及其直属各部门(单位),以及法律法规授权具

有行政职能的事业单位和社会组织。

3.3

政务数据governmentdata

政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。

[来源:GB/T38664.1—2020,3.1]

3.4

数据质量dataquality

在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。

[来源:GB/T25000.12—2017,4.3]

2

数据质量评估指标框架效用质量过程质量

数据质量评估指标框架

效用质量

过程质量

内容质量

4评估指标

4.1指标框架

数据质量评估指标框架见图1。评估指标包括以下内容:

a)内容质量:包括数据规范性、准确性、完整性和可用性;

b)过程质量:包括数据处理过程的处理效果、一致性;

c)效用质量:包括数据可访问性、时效性。

时效性

可访问性

致性

处理数果

可用性

完整性

准善性

第见性

图1数据质量评估指标框架图

4.2指标说明

数据质量评估指标说明见表1。

3

DB52/T1540.4—2021

表1数据质量评估指标说明

一级指

二级指

三级指标

指标描述

内容

质量

规范性

命名规范性

数据库、数据集、数据元的命名方式符合相关命名规范的情况。

元数据规范性

元数据描述符合相关规范的情况。

参考数据规范性

参考数据符合既有格式及规范的情况。

数据权限规范性

是否基于相关法律法规制定数据安全权限的规范性文件。

敏感字段脱敏占比

已脱敏字段占全部字段的比例。

准确性

数据格式合规性

数据格式(数据类型、数据范围、数据长度、精度、编码等)

是否满足预期要求,如手机号、身份证号、性别、统一社会信用代码等。具体体现为满是格式要求的数据集字段数占总数据

集的字段总数的比例。

数据重复率

特定字段、记录、文件或数据集中存在重复数据的比例。

数据唯一性

特定数据字段、记录、文件或数据集唯一标识的程度,具体体

现为满足唯一性的数据集个数与总数据集个数的比例。

脏数据出现率

脏数据出现率低于阈值的数据集的比例。

完整性

数据元素空值率

数据元符合数据元管理要求,不存在值为空的现象。

数据记录空值率

数据记录内容中存在空值的情况。

数据记录缺失率

(融合应用时)数据记录内容覆盖所有数据,不存在缺失现象。

可用性

数据字段可用性

数据字段值有效、可用的比例。

依赖字段可用性

存在依赖关系的字段同时非空的比例。

数据集可用性

数据集由多个字段组成,根据字段的可用率计算整个数据集的

可用率。

数据接口可用性

数据接口调用能够准确、正常的返回请求的比例。

过程

质量

处理效

数据合格率

校验后符合数据定义和规则的数据与总体数据的比例。

清洗保留率

清洗后的数据量占清洗前数据总量的比例。

一致性

相同数据一致性

同一数据在不同位置存储或被不同应用或用户使用时,数据的

一致情况。

关联数据一致性

符合基础数据元组合的数据集的比例。

效用

质量

可访问

数据字段可访问率

可访问的数据字段的数量与总数的比例。

数据集可访问率

可访问的数据集的数量与数据集总数的比例。

数据接口有效性

可访问接日正确性。

时效性

时段数据正确性

日期范围的记录或者频率分布符合业务需求的情况。

时点数据正确性

特定时点的记录数、频率分布或延迟时间符合业务需求的情况。

数据时序

文档评论(0)

zhanghaoyu888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档