数据质量分析方法探究 .pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据质量分析方法探究

随着时代发展,数据的重要性显而易见,但数据是一把双刃剑,它能给价

值的同时也是是最大的风险来源。糟糕的数据质量常常意味着糟糕的业务决策,

将直接导致数据统计分析不准确、监管业务难。数据质量就是在正确的时间、地

点、将正确的信息的正确集合提供给需求者以用来决策、执行任务,并实现既定

目标。

标签:数据;质量分析;方法研究

1.数据质量的定义

从宏观上说,数据质量的研究目标是“确保正当的利益相关者在正确的时间

和地点,拥有正确格式的正确信息。”目前数据质量的定义还没有一个统一的形

式。有关资料从不同角度和应用范围对数据质量进行了定义。数据质量是指信息

系统满足模式和数据实力的一致性、正确性、完整性和最小性四个指标的程度,

是数据适合使用的程度,以及满足特定用户期望的程度。

2.数据质量问题的来源

数据在其生命周期内,要经历人员交互、模型计算、网络传输、数据存储等

操作步骤,每一环节都可能引入错误,产生数据异常,导致数据质量问题。

2.1数据采集错误。

当数据录入人员很据数据资料(語音、影像、文字材料等)录入数据时,由

于对原数据的曲解或书写、印刷等问题,造成数据采集的错误;或者数据库系统

缺少数据完整性约束的定义,对不小心采集的伪数据缺少完整性检测。

2.2测量错误。

采取不恰当的调研和采集策略,以及数据采集测量工具使用不正确等原因导

致的错误。

2.3简化错误。

在大多数情况下,源数据入库之前需要预处理和简化,如为减少源数据的复

杂性和噪声,操作人员为减少数据占用存储空间而执行简单处理,这些操作可能

会导致在入库的简化数据中存在质量问题。

2.4数据集成错误。

多数据源的数据集成到一个数据库时,由于数据库间数据语义不兼容、明名

冲突、结构冲突等原因造成的数据质量问题。

3.数据质量的分类

根据数据源为单数据源或多数据源,可将数据问题分为四类,即单数据源模

式层问题、单数据源实例层问题、多数据源模式层问题、多数据源实例层问题。

(见下表)

4.数据清洗

数据清洗主要研究内容是检测并消除数据中的错误和不一致等质量问题,以

提高数据质量。

数据清洗又叫数据清理、数据擦洗。由于数据清洗应用领域不同,其含义有

所差别。目前数据清洗主要应用于数据仓库、数据挖掘、综合质量管理等三个领

域。

4.1数据仓库中数据清洗。

数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管

理部门的决策过程。数据仓库中的数据清洗为消除错误和不一致数据的过程,并

需要解决记录的重复问题。数据清洗是数据仓库构建的关键步骤。

4.2数据挖掘中的数据清洗。

数据挖掘是从数据库、数据仓库或其他信息库中的大量数据发现知识的过

程。数据清洗是数据挖掘过程第一步,是一种使用计算化的方法来检查数据库,

检测缺失和不正确的数据,并纠正错误数据的过程。

4.3综合数据管理中的数据清洗。

在综合数据管理中的数据清洗,大多从数据质量的角度考虑数据清洗。将数

据清洗定义为评价数据质量并改善数据质量的过程。

5数据清洗方法

5.1缺失数据处理方法。

主要有三种,一是忽略元组法,它将存在缺失值的记录直接删除,得到完整

记录数据。二是简单填充法,利用某些值,对记录中的缺失值进行填充得到完整

数据。三是统计学法分为均值填充法,中间值填充法,最常见值填充法。四是分

类法,这是数据挖掘的重要方法。分类过程是找出描述和区分数据和类别的概念

模型。常见分类法有贝叶斯法、K最近邻法决策树法。

5.2相似重复记录检验。

这是数据清洗重要方面,重复记录不仅导致数据冗余,浪费了网络带宽和存

储空间,还提供给用户很多重复信息,这类问题解决主要基于数据库和人工智能

的方法。

5.3异常数据处理。

异常数据可能由录入失误造成的,也可能由于数量纲不一致导致结果异常。

一方面异常数据可能是应该去掉的噪声,另一方面也可能含有重要信息的数据单

元,因此在数据清洗中,异常数据的检测也十分重要,通过检测并去除数据源中

孤立点可以达到数据清洗的目的。

5.4数据逻辑错误检测。

对于错误数据的清洗一般两种相联系的方法即通过检测数据表单中单个字

段的值来发现错误数据,在一个是通过检测字段之间以及记录之间的

文档评论(0)

151****9236 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档