网站大量收购闲置独家精品文档,联系QQ:2885784924

元数据管理与数据质量平台23页.docVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
元数据管理与数据质量平台23页

数据质量管理架构 数据质量问题一直是困扰数据仓库发挥积极作用的重要因素,在数据仓库建设之初就应当从战略角度对数据质量体系进行规划。 数据质量基础定义 完整性 数据的完整性:为实现业务目的而设计组织的数据模型是否完全,是否覆盖各个方面。例如:对一个业务,一个客户,一个产品,一个营销活动,一个客户的性质等进行缺失考察。例如,客户名称有姓无名等,客户档案是否齐全,是否客户所有业务都包含在内等。 完整性破缺主要发生在实体或对象的属性上和整个数据缺失两种情况。 完整性列表: 数据完整性,例如属性数据是否残缺,数值类型数据是否有空数据 业务完整性,例如是否有些业务没有包含在内,是否涵盖所有生产系统和必要的外部数据(例如竞争数据,保监会数据),是否覆盖所有客户(例如是否覆盖全部客户) 设计完备性, 设计是否完善 模型的完备性 数据字典完备性 映射关系完备性 业务规则是否完备 元数据完备性 加工层次完整性,加工过程中重要的中间数据是否保存,例如,有月统计数据,考察日数据是否存在? 粒度完整性,重要经营指标各个粒度数据应该完善 有效性 指数据包含了一个有效的数据格式或值 一致性 数据的一致性是一个长期的困难。建立数据仓库的核心目的之一也是争取解决这个问题。一致性定义为各个系统数据的统一,定义为数据仓库系统内数据定义的统一。 一致性还表现在定义和口径的一致性。 数据库一致性,设计上是否有多种存储并存,各类统计口径是否统一 冗余和星型模型以及非第三范式一致性保证措施 和源数据一致性 唯一性 唯一性定义为系统数据定义的唯一性。由于数据仓库技术不一定受第三范式约束,可能具有相当的冗余,但数据冗余不能违反定义的唯一性原则。对于哪些既存在于关系数据库又在多维数据库中表现的数据和指标要特别注意,因为极容易由于生成的时间差造成不一致。唯一性至少应当向系统的用户说明最终的数据评判标准,数据的冗余和评判应当是元数据管理的重要内容。 正确性 数据正确是决策的关键,数据不正确,数据仓库项目就等于失败。但数据的正确性难以通过自身检查。应该对重要数据和重要统计设立正确性检查。主要方法是: 数据自身统计检验 纵向对比检验 数据间按逻辑交叉检验 横向对比校验 主要检查的内容: ETL过程正确性 加工过程正确性 数据整合正确性 模型正确性 展现正确性 查询正确性 核对过程是否充分 准确性 数据的正确性基础上才有意义讨论准确性。准确性包括精度和近似规则。 精度:系统定义的数据必须满足的精确性要求。例如,客户生日,可以精确到年,或月,或日;全局收入统计或许到万元即可,也许到角分。 可用性 数据的可用性不是一个简单数据质量问题,而是系统质量问题,所有质量因素都可能影响到可用性。数据的可用性主要体现在使用的效率上 时效性 清晰性 数据的清晰性考验系统元数据的精度。元数据必须清晰定义每一个数据的来龙去脉。必须没有歧义。 充足性 数据的充足性定义在保证数据正确性和准确性基础上是否能对主要业务专题提供足够的数据进行足够精度的分析需求。例如,进行时间序列分析通常需要至少36个连续时间单位的数据,是否能够提供这个时间序列。 数据积累是否足够广泛,例如设计上虽然包含了足够宽广的业务领域,但每项业务的数据是否真的收集到了足够多, 数据积累是否足够时间,充足性的特殊情况,是否收集了足够时间长度的数据 元数据和字典数据的充足性,描述性是否足够 数据质量保证框架 战略 战略 – 从企业战略方向主动的考虑数据质量状况。 战略的意义: 提供了战略上的、可操作的数据质量保障方向 识别企业数据的关键因素 指明数据质量的范围 战略的范围: 策略:包含以下方面的内容, 任务定义 与业务的关系 切入点 约束条件 可行性 关键方法:包含以下方面, 方向 使规范化 保障策略被顺利执行的手段 变更管理:为了适应企业变更而采取相应的数据质量管理变更机制 组织 组织 – 为了达成企业的数据质量目标,从企业行政管理以及职能设置上进行考虑 。 组织指的是如何组织相应的人员、设立相应的数据质量机构对数据质量进行管理,包含以下方面: 组织机构规划 人员及其职责设计 制定考核制度 管理 管理 – 对于企业中元数据以及业务规则的维护上予以管理 管理包含以下范畴: 定义完整的元数据集 定义无二义性、易于理解的业务规则 建立一个健壮的、高可扩展的数据模型 架构 架构 – 从整体上(数据、应用程序、技术架构)对改进数据质量予以考虑 架构的建立应从以下方面进行考虑: 数据架构 应用程序架构 基础架构 过程 过程 – 过程的改进 过程关注的是数据质量管理的过程,应从以下方面进行考虑: 数据质量管理的实施过程 过程控制点以及控制路线 (错误或异常的)补救措施 验证 验证 – 定义数据质量的评测标准并按所制

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档