数据仓库数据质量的治理及体系构建.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库数据质量的治理及体系构建

数据仓库数据质量的治理及体系构建 中国建设银行股份有限公司信息技术管理部厦门开发中心 程大庆 郑承满 在信息化应用不断深入的背景下,数据资源优势挖 掘,基于数据治理提升业务响应能力等问题已经成为金 融行业关注的焦点。本文主要讨论在大型银行数据仓库 中构建数据质量治理体系的方法。 如图1所示,以数据质量6Σ标准的6个特性为基础, 根据数据仓库中的信息特征,划分为多个指标集如“完整 性_主键重复”、“完整性_拉链错误”等;在这些指标集 下,针对不同的实体和属性,形成不同的可实施的数据质 量检核规则如“完整性_主键重复_客户信息表”。 通常情况下,数据质量检核规则是以制定好的数据 质量指标集为基础,逐层逐块的进行质量检核;但是在 实施中,经常会根据数据使用中发现的数据质量关键点 或者某些业务需求,进行数据质量专项治理。 (1) 数据质量指标集的制定 数据质量指标集的制定,需要考虑数据质量6Σ标 准在不同数据集中的信息特征,以及数据仓库的数据架 构和数据流向。在不同的数据架构和数据流向下,数据 集中的数据质量信息特征不尽相 同,数据质量检核重点不同,由此 制定的数据质量指标集也不相同。 由 于 数 据 量 、 数 据 加 载 工 具 的 处 理 能 力 和 数 据 库 引 擎 的 处 理 能 力 不 同 , 不 同 数 据 仓 库 的 数 据 处 理 顺 序 是 不 同 的 , 主 要 分 为 E T L 和 E L T 两 种 模 式 。 一 般 来 说 , 数 据 库 引 擎 厂 商 主 推 的 是 E L T 模 式 , 在 数 据 加 载 入 数 据 仓 库 后 进 行 数 据 转 换 , 如 T e r a d a t a 、 O r a c l e ; 专 业 的 ETL工具厂商主推ELT模式,如 Informatica。两种模式下的数据 一、数据质量治理的基本内容 1.数据质量检核 数据质量检核是指通过技术手段,以数据质量指标 (包含技术指标和业务指标)为标准进行检核、监控, 以发现数据质量问题。以数据质量6Σ标准为基础制定 数据质量指标集,再针对具体的数据集编写数据质量检 核规则,即可进行数据质量检核。对于每一个数据质量 指标,均可衍生多个数据质量检核规则。 图1 基于数据集的数据质量核查规则 架构最大的不同点,在于ELT模式存在数据缓冲层,而 ETL模式无数据缓冲层。数据缓冲层一般与数据源同构, 用于缓冲放置数据仓库从异构数据源中获取的数据。 下面以ELT模式下的数据仓库为例讨论数据指标集 的制定,该模式下数据仓库的ETL过程分为3个环节: 从数据源到仓库的ETL过程,仓库内部的ETL过程,仓库 到目标的ETL过程。在整个ETL过程中,数据仓库的数 据架构共分为四层:缓冲层、基础层、汇总层和应用集 市层。 以数据质量6Σ标准为基础,结合数据仓库的 数据模型,遵循ETL过程和数据流向,分层级制定 质量指标集即可进行立体的、全方位的数据质量 (如图2所示)。 数据质量指标集的制定,可采用三层级制定方 以数据质量6Σ标准的6个特性为基础,作为第一层 将数据质量6Σ标准按数据仓库的数据层级划分, 数据仓库 数据流入 SDATA PDATE Mart 数据流出 MID 数据质量检核规则集 完整性 有效性 准确性 唯一性 一致性 时间性 数据集 数据集 完整性_代码错误 _账户状态代码 完整性_拉链错误 _客户金额历史表 …… …… 完整性_代码错误 完整性_拉链错误 …… …… 完整性_主键重复 完整性_主键重 复_客户信息表 完整性_非法值 完整性_非法值 _客户开户日期 第二层级;在数据层级上,再根据每个特性的分割,制 定各层级的数据质量指标集,即第三层级。以下为某大 型银行的数据质量指标集实施实例。 首先对各数据集缩写定义见表1。根据每个数据层 集的数据特征,再对每个数据特性分子类,制定可实施 的指标集。指标名称定义如下:数据特性_数据集缩写_ 特性子名称。表2为一个较为完整的、可实施的数据质 量指标集。 表1 各数据集缩写定义 表2 数据质量指标集 指标名称 指标说明 完整性_SD_非空 加载入仓库缓冲层的源表非空 完整性_SD_数量 加载入仓库缓冲层的源表的数量正确、稳定 完整性_SD_主键 加载入仓库缓冲层的源表与上游源表的同时点主键值相同 准确性_SD_属性 加载入仓库缓冲层的源表与上游源表的同时点属性信息值相同 一致性_SD_关联 加载入仓库缓冲层的各张源表满足主外键、包含关系 有效性_SD_代码 加载入仓库缓冲层的源表的代码值符合范围 有效性_SD_属性 加载入仓库缓冲层的源表的属性值符合范围,如日期字段符合日期范围,金额字段符合金额范围 唯一性_SD_主键 加载入仓库缓冲层的源表是否主键重复

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档