- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库数据质量的治理及体系构建
数据仓库数据质量的治理及体系构建
中国建设银行股份有限公司信息技术管理部厦门开发中心
程大庆 郑承满
在信息化应用不断深入的背景下,数据资源优势挖
掘,基于数据治理提升业务响应能力等问题已经成为金 融行业关注的焦点。本文主要讨论在大型银行数据仓库 中构建数据质量治理体系的方法。
如图1所示,以数据质量6Σ标准的6个特性为基础,
根据数据仓库中的信息特征,划分为多个指标集如“完整 性_主键重复”、“完整性_拉链错误”等;在这些指标集 下,针对不同的实体和属性,形成不同的可实施的数据质 量检核规则如“完整性_主键重复_客户信息表”。
通常情况下,数据质量检核规则是以制定好的数据 质量指标集为基础,逐层逐块的进行质量检核;但是在 实施中,经常会根据数据使用中发现的数据质量关键点 或者某些业务需求,进行数据质量专项治理。
(1) 数据质量指标集的制定 数据质量指标集的制定,需要考虑数据质量6Σ标
准在不同数据集中的信息特征,以及数据仓库的数据架 构和数据流向。在不同的数据架构和数据流向下,数据 集中的数据质量信息特征不尽相 同,数据质量检核重点不同,由此 制定的数据质量指标集也不相同。
由 于 数 据 量 、 数 据 加 载 工 具 的 处 理 能 力 和 数 据 库 引 擎 的 处 理 能 力 不 同 , 不 同 数 据 仓 库 的 数 据 处 理 顺 序 是 不 同 的 , 主 要 分 为 E T L 和 E L T 两 种 模 式 。 一 般 来 说 , 数 据 库 引 擎 厂 商 主 推 的 是 E L T 模 式 , 在 数 据 加 载 入 数 据 仓 库 后 进 行 数 据 转 换 , 如 T e r a d a t a 、 O r a c l e ; 专 业 的 ETL工具厂商主推ELT模式,如
Informatica。两种模式下的数据
一、数据质量治理的基本内容
1.数据质量检核
数据质量检核是指通过技术手段,以数据质量指标
(包含技术指标和业务指标)为标准进行检核、监控, 以发现数据质量问题。以数据质量6Σ标准为基础制定 数据质量指标集,再针对具体的数据集编写数据质量检 核规则,即可进行数据质量检核。对于每一个数据质量 指标,均可衍生多个数据质量检核规则。
图1 基于数据集的数据质量核查规则
架构最大的不同点,在于ELT模式存在数据缓冲层,而
ETL模式无数据缓冲层。数据缓冲层一般与数据源同构, 用于缓冲放置数据仓库从异构数据源中获取的数据。
下面以ELT模式下的数据仓库为例讨论数据指标集 的制定,该模式下数据仓库的ETL过程分为3个环节: 从数据源到仓库的ETL过程,仓库内部的ETL过程,仓库 到目标的ETL过程。在整个ETL过程中,数据仓库的数
据架构共分为四层:缓冲层、基础层、汇总层和应用集
市层。
以数据质量6Σ标准为基础,结合数据仓库的 数据模型,遵循ETL过程和数据流向,分层级制定 质量指标集即可进行立体的、全方位的数据质量
(如图2所示)。 数据质量指标集的制定,可采用三层级制定方
以数据质量6Σ标准的6个特性为基础,作为第一层
将数据质量6Σ标准按数据仓库的数据层级划分,
数据仓库
数据流入 SDATA PDATE Mart 数据流出
MID
数据质量检核规则集
完整性 有效性 准确性 唯一性 一致性 时间性
数据集 数据集
完整性_代码错误
_账户状态代码
完整性_拉链错误
_客户金额历史表
……
……
完整性_代码错误
完整性_拉链错误
……
……
完整性_主键重复
完整性_主键重 复_客户信息表
完整性_非法值
完整性_非法值
_客户开户日期
第二层级;在数据层级上,再根据每个特性的分割,制
定各层级的数据质量指标集,即第三层级。以下为某大 型银行的数据质量指标集实施实例。
首先对各数据集缩写定义见表1。根据每个数据层 集的数据特征,再对每个数据特性分子类,制定可实施 的指标集。指标名称定义如下:数据特性_数据集缩写_ 特性子名称。表2为一个较为完整的、可实施的数据质
量指标集。
表1 各数据集缩写定义
表2 数据质量指标集
指标名称
指标说明
完整性_SD_非空
加载入仓库缓冲层的源表非空
完整性_SD_数量
加载入仓库缓冲层的源表的数量正确、稳定
完整性_SD_主键
加载入仓库缓冲层的源表与上游源表的同时点主键值相同
准确性_SD_属性
加载入仓库缓冲层的源表与上游源表的同时点属性信息值相同
一致性_SD_关联
加载入仓库缓冲层的各张源表满足主外键、包含关系
有效性_SD_代码
加载入仓库缓冲层的源表的代码值符合范围
有效性_SD_属性
加载入仓库缓冲层的源表的属性值符合范围,如日期字段符合日期范围,金额字段符合金额范围
唯一性_SD_主键
加载入仓库缓冲层的源表是否主键重复
文档评论(0)