- 1、本文档共1页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据质量评估体系主要参考以下5个指标
数据质量评估体系主要参考以下指标:
完整性、准确性、有效性、时效性、⼀致性
依据以上指标,针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执
⾏中进⾏取舍。
数据质量评估具体检测的内容
数据完整性检测
完整性,描述数据信息缺失的程度,是数据质量中最基础的⼀项评估标准。数据缺失的情况可
以分为数据信息记录缺失和字段信息记录缺失。数据完整性检测的步骤是
1、对于数据信息记录缺失的检测,可以通过对⽐源库上的表数据量和⽬的库上对应表的数据量
来判断数据是否存在缺失。
2、对于字段信息记录缺失的检测,选择需要进⾏完整性检查的字段,计算该字段中空值数据的占
⽐,通常来说表的主键及⾮空字段空值率为0%。空值率越⼩说明字段信息越完善,空值率越⼤
说明字段信息缺失的越多。
数据准确性检测
准确性,⽤于描述⼀个值与它所描述的客观事物的真实值之间的接近程度,通俗来说就是指数
据记录的信息是否存在异常或错误。例如业务员在上报系统上填写客户信息时,⼿误输错了某
⼀信息,造成了数据库⾥存在的信息与客观事实不⼀样。数据准确性的检测较为困难,⼀般情
况下很难解决。在某些特定的情况下,例如性别,年龄,出⽣⽇期,籍贯等信息可以通过校验
⾝份证号来检测,前提是确保⾝份证号码是正确的。
数据有效性检测
有效性,描述数据遵循预定的语法规则的程度,是否符合其定义,⽐如数据的类型、格式、取
值范围等。数据有效性检测的步骤是⽤户选择需要进⾏有效性检测的字段,针对每个字段设定
有效性规则。有效性规则包括类型有效、格式有效和取值有效等。类型有效检测字段数据的类
型是否符合其定义,例如可以通过求和来判断是否是数值型,通过时间操作来判断是否是时间
类型。格式有效性检测可以通过正则表达式来判断数据是否与其定义相符。取值有效检测则通
过计算最⼤最⼩值来判断数据是否在有效的取值范围之内。
数据时效性检测
时效性,是指信息仅在⼀定时间段内对决策具有价值的属性。数据从⽣成到录⼊数据库存在⼀定
的时间间隔,若该间隔较久,就可能导致分析得出的结论失去了借鉴意义。例如当天的交易数
据⽣成后没有及时的录⼊数据库或者源库与⽬的库之间的同步延迟,则会导致统计结果和真实
结果存在⼀定误差。
数据⼀致性检测
把待检测的表作为主表,⾸先⽤户确定⼀致性检测的主表字段,然后选择需要给定检测的从表
和从表字段,设置好主表和从表之间的关联项,关联项可以是多个字段,但是关联项必须是拥有
匹配值的相似字段。匹配关联之后检查主表和从表相同或者类似字段字段值是否⼀致。
数据质量评估流程
数据质量的评估流程⾸先确定要检测的数据质量指标和评估规则,然后编写相应的SQL脚本来
检测分析数据,最后计算满⾜各个规则的数据的百分⽐得分。系统的综合得分的计算可以通过
把每条规则的得分计算出来,然后综合后取平均值,但更为合理的⽅法就是可以把每条规则的
得分按照给定的权重进⾏评价,做出⼀个合理的数据质量评价等级。由⽤户规定每个检测规则
的权重,做出⼀个权重⽅案,然后按照各个检测规则的权重进⾏整体的计算统计,得到⼀个合
理的数据质量评估得分。
文档评论(0)