资料仓储的资料建制.ppt

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
资料仓储的资料建制

5.5.3.2 資料品質檢查 資料品質檢查需要根據各種檢查目的設計出各種篩檢程式,ETL 系統透 過執行這些篩檢程式來確保資料具有足夠程度之資料品質。資料品質之檢查 方法大致可分為四個大的類型,分別說明如下: 1. 欄位檢查 (Column property enforcement) 欄位檢查係就單筆資料確保由來源系統輸入的資料包含目標系統期望的 資料。較常用的欄位檢查包括如下篩檢程式: (1) 檢查空值 (Null) (5) 出現不合理長度之文字 (2) 出現不合理大小的數值? (6) 出現無效值列表中的數值 (3) 出現有效值列表以外的數值? (7) 拼寫檢查 (4) 格式檢查 24 商業智慧 基於這些篩檢程式的檢查結果,ETL 作業流程可以選擇: (1) 讓沒有錯誤的資料通過 (2) 讓資料通過,同時標記有錯誤的欄位值。(一般情況之指導原則) (3) 拒絕資料 (4) 停止 ETL 作業流 2. 結構檢查 (Structure enforcement) 相對於欄位檢查係專注於單一欄位之正確性,結構檢查則是專注於各 個欄位間關係之正確性。例如,檢查每個表有合適的主鍵和外來鍵,並且遵 循參照完整性;檢查確認欄位間存在之階層架構,例如有效的郵件通訊位址 (如郵遞區號、通訊地址)。 3. 資料檢查 (Data enforcement) 資料檢查主要係根據業務規則進行檢查,主要是對單筆資料做業務規則 檢查,如客戶單筆消費金額合理上下限檢查。 4. 值檢查 (Value enforcement) 對於值檢查亦根據業務規則進行檢查,值規則是在資料規則上做合理的 延伸,如進一步根據業務規則進行彙總計算後進行分析判斷,如單日客戶總 消費金額之合理上下限檢查。 * (1) 執行:一系列的篩檢程式按照中繼資料定義的順序執行。 (2) 記錄:篩檢程式所偵測到的每個錯誤記錄在錯誤事件事實表中。 (3) 判斷:當每一篩檢程式執行後,就會在錯誤事件事實表中查詢是否遇到致命的錯誤 (如整批資料遺失)。 (a) 如果沒有發現:持續運行 ETL 流程; (b) 如果發現:停止 ETL 處理流程。 (4) 審計:當篩檢程式執行完畢後,根據錯誤事件事實表為審計維度表計算整個資料品質得分。 持續運行原則 資料清理的指導原則是發現並且記錄存在的資料品質錯誤,而不是跳過資料或者是停止 ETL 過程。因為,資料品質問題在資料倉儲生命週期中是一個不幸並且存在的事實。為儘量使資料清理系統持續運行,必須提供一些預備機制以處理意想不到情況的機制 (如資料缺陷或系統斷線)。資料清理系統也必然需要一些例外處理,例如,如果檢測到過多底層錯誤 (如代碼整批錯誤),就要採取例外之處理動作。 * 參考圖 5-10,為一個支援欄位值一致化的中繼資料表範例。其記錄每 個資料表和它相關欄位的中繼資料。該一致化欄位參照事實表中 (Conformed column reference fact table) 記錄了標準的一致化欄位值定義,而欄位維度 (Column dimension) 包含來源資料中對應欄位之原始值。舉例來說,如果 Male 和 Female 是性別維度一致化的目標值 (Conformed value),則事實表將 會在來源系統 A 中用 M 關聯 Male,用 F 關聯 Female;在來源系統 B 中用M 關聯 Male,但是用 W 關聯 Female;而在來源系統 C 中,則用 Man 關聯 Male,用 Woman 關聯 Female。 * 參考圖 5-11,為用以支援篩選的中繼資料表。來源至目標對照表 (Survivorship source to target map) 用來記錄來源資料欄位 (Source column key) (已清理但沒有一致化的欄位) 與目標資料欄位 (Target column key) (一致化 維度的欄位) 之間的資料映射關係。篩選分組表 (Survivorship block) 則把 上述的映射 (來源資料欄位到目標資料欄位) 進行分組,每一組表示其所含 之資料映射關係相互共存 (如前面所提到地址欄位的問題)。該優先排序表 (Survivorship block source rank) 記錄每一篩選分析對應來源系統的優先順序。 根據此中繼資料,就能使用動態 SQL 為每一篩選分組按照該來源系統排序, 查到非空之最適值。 * * 比較圖 5-12 與圖 5-13,提高大型資料倉儲性能最重要的手段是在基礎資 料上建立一組適當的彙總資料。亦即藉由控制維度表的細度 (如產品項目 (小) 改成產品類別 (大)),來改變原事實表事實之細度,並對原事實表之量值進行 彙總計算後,另產生一組細度較大之彙總事實表,可以大幅的減少原事實表 的資料量

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档