网站大量收购闲置独家精品文档,联系QQ:2885784924

《公共数据清洗技术要求》DB35T 2240-2024.docxVIP

《公共数据清洗技术要求》DB35T 2240-2024.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

ICS01.040.35

35

CCSL70

福 建 省 地 方 标 准

DB35/T2240—2024

公共数据清洗技术要求

Technicalrequirementsforpublicdatacleaning

2024-12-24发布 2025-03-24实施

福建省市场监督管理局??发 布

DB35/T2240—2024

目 次

前言 II

1 范围 1

2 规范性引用文件 1

3 术语和定义 1

4 基本原则 2

5 过程要求 2

6 方法要求 5

7 安全要求 7

附录A(资料性) 数据清洗的常见方法 8

参考文献 9

I

DB35/T2240—2024

前 言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由福建大数据一级开发有限公司提出。

本文件由福建省信息化标准化技术委员会(SAFJ/TC11)归口。

本文件起草单位:福建大数据一级开发有限公司、福建省数字经济发展促进中心、福建省市场监督管理局行政服务中心、福建省网络与信息安全测评中心、福建省建设信息中心、福建奇比特信息科技有限公司。

本文件主要起草人:李喆、陈国清、徐侃、涂平、王宇奇、邹建红、黄炜、石福仁、游鄂平、梁煜、张镇晖、李元、傅腾宇、李海、吴春华、马腾、陈闪闪、谢丹丹、张健文。

II

公共数据清洗技术要求

范围

本文件规定了公共数据清洗的基本原则、过程要求、方法要求和安全要求。

本文件适用于一体化公共数据的抽取、转换、核验、加载等清洗环节。

规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文件。

GB/T22239 信息安全技术 网络安全等级保护基本要求

GB/T35274 信息安全技术 大数据服务安全能力要求

GB/T36344—2018 信息技术 数据质量评价指标

GB/T37973 信息安全技术 大数据安全管理指南

GB/T39477 信息安全技术 政务信息共享 数据安全技术要求

GB/T43697 数据安全技术 数据分类分级规则

术语和定义

下列术语和定义适用于本文件。

3.1

公共数据 publicdata

公共管理和服务机构在依法履职或者提供公共管理和服务过程中收集、产生的,以一定形式记录、保存的各类数据及其衍生数据。

注1:公共管理和服务机构是指政务部门以及公益事业单位、公用企业。

注2:包含政务、公益事业单位数据和公用企业数据。

3.2

公共数据资源目录 publicdataresourcecatalog

依据公共数据资源的元数据,按照一定的分类方法进行编码的一组信息,用以描述各个公共数据资源的特征,便于公共数据资源的检索、定位与获取。

3.3

缺失值 missingvalue

在数据归集与整理过程中未获得的数值、属性或内容。

3.4

重复值 duplicatevalue

数据集存在两条及以上完全相同的记录,或在某一字段内存在多个相同的值。

DB35/T2240—2024

4 基本原则

安全性

数据在清洗过程中应防止数据泄露、篡改或非法访问。

合法性

数据清洗过程和数据内容应符合《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等相关法律法规的要求。

可审计性

数据清洗的全过程应跟踪和记录,确保数据的来源、处理步骤、结果输出等可追溯。

5 过程要求

基本流程

数据清洗基本流程应包含检测分析、确定清洗范围、定义清洗规则、数据抽取、清洗转换、结果核验、数据标识和数据加载等环节(见图1)。

2

开始

检测分析

确定清洗范围

定义清洗规则

数据抽取

清洗转换

不通过

结果核验

数据标识

通过

数据加载

结束

图1 数据清洗基本流程

5.2 检测分析

应满足以下要求:

根据被检测分析对象的特点和分析需求,设计具有针对性的检测分析方案;

从数据量、类型、内容、关系、数值范围等维度进行检测分析;

检测分析颗粒度达到字段级别,对数据中的每个字段、每个值进行检测分析;

采用缺失值、重复值、异常值、数据格式等一种或多种检测方法;

检测分析结果包含数据基本属性分析、数据的分布情况、数据的相关性和趋势、检测时间、检测方法及处理建议等。

5.3 确定清洗范围

应满足以下要求:

根据检测分析结果,识别数据质量问题,确定清洗目标;

根据数据的重要程度和数据质量情况,确定清洗任务优先级;

将不符合业务使用目标的数据存入问题数据库表,用于后续查证或重新使用。

5.4 定义清洗规则

应满足以下要求:

文档评论(0)

*** + 关注
实名认证
文档贡献者

资料来源网络,仅供学习交流,如有侵权,请【私信】删除!

版权声明书
用户编号:5313124133000044

1亿VIP精品文档

相关文档