資料精簡(datareduction).ppt

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
資料精簡(datareduction)

資料精簡 (Data Reduction) 內容概要 簡介 資料精簡所包含之觀點 資料維度精簡(Dimension Reduction) 資料維度的評估 資料維度之組合策略 資料維度組合產生順序 資料記錄精簡(Record Reduction) 資料數值精簡(Value Reduction) 資料數值分離技術(Discretization Technique) 概念階層(Concept Hierarchy) 簡介(1) 資料精簡在資料探勘過程中所扮演的角色 狹義而言:主要應用在資料的前置處理階段 (pre-processing phase) 從資料集合中挑選、過濾出具代表性的資料,進而r減少整個資料探勘的時間和成本 廣義而言:整個資料探勘過程都可以應用資料精簡的技術 前置處理階段(pre-processing phase) 探勘階段(mining phase) 後置處理階段(post-processing phase) 簡介(2) 前置處理階段之資料精簡 從資料庫或資料倉儲中選取並建立使用者感興趣的資料集合 從資料集合中濾掉一些無關、偏差、重複的資料 探勘階段之資料精簡 探勘處理過程中去除不具代表性的中介資訊或法則,進而縮小探勘過程中所需花費的時間,減少產生重複、不重要的知識 後置處理階段之資料精簡 根據使用者的需求,由探勘結果中選取其感興趣和相關的知識,以及透過視覺化技術將知識作適當的歸納、整合,讓使用者更方便快速了解發展趨勢、市場偏向、消費者群集等等,以幫助其作決策 資料精簡之優點 提高知識的應用性與準確性,降低無效、錯誤資料之影響 挑選少量且具代表性的資料將大幅縮減資料探勘所需的時間 使資料探勘方法的可用性提高 助於高價值知識的取得與提升知識可讀性 降低儲存的成本 資料精簡之考量 如何選取代表性的資料 如何進行資料精簡 資料精簡所包含之觀點 資料精簡:資料維度精簡、資料記錄精簡與資料數值精簡 會員資料集合 資料維度精簡(Dimension Reduction) 資料維度 主要用來描述一件事物或事件 可利用年齡、教育程度、平均月收入和會員等級等資料維度來描述一個會員 資料維度精簡在企業決策上的應用 企業在決策支援與線上分析處理 (OLAP) 上,通常根據決策制定目標與應用目地的不同,會由日常線上交易處理(OLTP)資料集合中,挑選、轉換、乃至新增跟決策相關的資料維度來描述資料集合,並進行分析探勘 資料維度的評估(1) 利用一測量方法來挑選較好的資料維度 以會員資料表為例,“平均月收入” 應該比 “教育程度” 和 “年齡” 這兩個資料維度更適合做為 “會員等級” 評比的依據。(因為大部分收入低的會員,同常會員等級也會低) 讓電腦透過所設計的測量方法,自動地從資料集合中挑選較好的資料維度,幫助我們客觀解決資料維度精簡的問題 資料維度的評估(2) 測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement) 資料維度的評估(3) 闡述測量方法的整合範例 測量方法 一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement) 一致性測量法(1) 概念 在使用者給定之標的資料維度下,一致性測量法的概念是利用最少的其他的資料維度,來描述資料表中每一筆記錄時,不會造成矛盾與衝突 任兩筆資料記錄可以透過所選擇的資料維度來描述,但不會產生不一致(inconsistency)的情況 範例 以”會員等級”是標的資料維度,則單以 “平均月收入” 此資料維度來描述原來的會員資料表,將使得資料記錄一與資料記錄二會產生不一致 同樣“平均月收入”等級一 但是會員一與會員二之會員等級卻不同 一致性測量法(2) “平均月收入” 對 “會員等級” 所產生的不一致數量 I (平均月收入, 會員等級) = I (平均月收入(1), 會員等級) + I (平均月收入(2), 會員等級) + I (平均月收入(3), 會員等級) = 1 + 0 + 0 = 1 “教育程度” 對 “會員等級” 所產生的不一致數量 I (教育程度, 會員等級) = I (教育程度(大學), 會員等級) + I (教育程度(高中), 會員等級) + I

文档评论(0)

maritime5 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档