- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据管理第 4 章
第四章数据质量管理;数据质量管理
通过计划、实施和控制活动,运用质量管理技术来度量、评估、改进和保证数据的恰当使用。;1.数据迭代过程有客观差错率
1-(1-e)n ,e表示单个步骤的错误概率(1955年埃文.劳治提出)
2.数据错误源于假设
——数据错误常常出自以讹传讹
3.从应用角度给出内容出处
4.适合需要最关键
——例如:人次和人数问题
——近似度(proximity),置信区间(confidence)
;;完整性(completeness)
数据集之中有多少数据缺失了一个或多个详细数据
合规性(compliance)
无法在记录级别上满足业务规则的记录数
准确性(accuracy)
数据集中可能的错误
——真实性;可靠性;
——概率;置信水平;大数据
;香农
H=log2N;256种状态可以用8个字节表示;26个字母,每个字母是4.7bit
H=-∑p(xi)log2p(xi);与质量管理大师定义的质量管理循环相类似:
计划——实施——学习——行动
计划——实施——监控——行动
;数据质量管理过程
制定数据质量评估计划和识别数据质量度量关键指标
实施度量和提升数据质量的流程
监控根据业务预期定义的数据质量水平
执行解决数据质量问题的行动方案;数据质量的根本是“适用性”
数据质量的适用性就是要满足业务活动对数据质量的特定需求,而数据质量的需求也隐含在各项业务活动和业务政策之中,如管理法规、行业标准或标准的数据交换格式;还有就是市场、销售、佣金、物流等方面的规则
例如:行业标准要求药品行业要采用标准的药品编码;准确性(Accuracy)
是指数据准确反映其所建模的“真实世界”实体的程度。
度量数值与一个已经确定的正确信息参照源的一致性可以度量准确性,如将数据值与来自数据库或其他数据表的正确的数据集比较,有时也可能需要手工来检查数值的准确性。;完整性(Completeness)
完整性的要求之一是一个数据集的特定属性都被赋予了数值
数据类型的完整性:必填属性、可选数据属性、不适用属性值
完整性的另一个要求,是一个数据集的全部行记录都存在。
还可以认为完整性是指数据的可用性和适当性;一致性(Consistency)
是指确保一个数据集的数值与另一个数据集的数值一致。
含义相当宽泛:
不同数据集的两个数值不能有冲突;
在预定义的一系列约束条件内定义一致性;时效性(Currency)
指信息反映当前真实世界的程度,度量了数据的新鲜程度以及在时间变化中的正确程度;
可以根据数据元素的刷新的频率度量数据的时效性,从而验证数据是必威体育精装版的
;精确度(Precision)
精确度是指数据元素的详细程度。
数值型数据可以有若干精确数位:例如对数据取整或截断可能会产生精确度错误;隐私(Privacy)
隐私是指需要对数据进行访问控制和使用监控。;合理性(Reasonableness)
数据与特定规则的要求和相关场景数据的一致性
相关数据表明销售数据110%,而产品生产量数据降低了30%。;参照完整性(Referential Integrity)
一张表的一个字段对同一张表或另一张表的另一个字段引用全部有效;
当指定存在外键时,该键所指向的记录真实存在。;及时性(Timeliness)
是指对信息可访问性和可用性的时间预期
需要信息的时间点与信息准备就绪可用时间点之差;唯一性(Uniqueness)
在一个数据集中没有多余的实体多余一次出现,并且每一个唯一实体有一个键值且该键值只指向该实体。;有效性(Validity)
是指数据值的存储、交换或展现的格式是否与数值域相一致,是否与其他相似属性值一致。;采取两种评估方式:
自下而上
在发现数据问题时,根据问题点自下而上分析
自上而下
分析潜在问题,或者对数据用户提出的问题,从业务流程如何使用数据、哪些数据对业务应用作用关键。;过程
确定需要评审的数据集
记录数据集的业务使用方式
使用数据分析工具对数据集进行实验分析
列出全部潜在异常
针对每个异常
与 领域专家一起审核
评价对业务的潜在影响
对重要数据异常进行优先排序,准备定义数据质量指标
;可度量性
一个数据质量指标必须是可度量的。
业务相关性
对于每个数据质量指标都应说明满足数据质量的可接受度阈值与业务预期的相关度。
某项业务需要6项指标维度,每个指标的阈值是否合理。
可接受程度
为各个数据质量维度确定可接受的阈值,并且评价数据质量指标是否达到和高于该阈值。
要求小数点后4位,数据值是否达到或超过4位?;数据责任制度/数据管理制度
但数据质量不符合要求时,是否有完整的责任制度来负责开展适当的纠错行动
可控性
数据质量评估指标的评估结果反映了不良数据质量,则应对所度量的数据是否存在相应的改善措施和行动。
可跟踪性
数据质量的变化是可以不断被发现和持
文档评论(0)