- 1、本文档共62页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树演算法-PRISM
第五章 資料分類法 第五章 資料分類法 簡介 以決策樹為基礎之分類法 非決策樹為基礎之分類法 何謂分類 根據已知資料及其分類屬性值,建立資料的分類模型,接著利用此分類模型預測新資料的類別 範例:顧客是否會購買筆記型電腦的分類模型 分類法的特性與分類演算法 分類法特性 屬於機器學習(machine learning) 一種監督式的學習法(supervised learning) 常用的分類演算法 以決策樹為基礎的分類法 包括ID3, PRISM, 以及Gini索引 非決策樹為基礎的分類法 貝氏分類法、記憶基礎推論法、類神經分類法 分類的目的與應用 分類目的 分析影響資料歸類的因素 預測資料所屬的類別 (class label) 分類應用 信用額度核准(credit approval) 例如:根據預測的信用等級決定核卡額度 目標行銷(target marketing) 例如:找出會購買筆記型電腦的顧客屬性 醫療診斷(medical diagnosis) 例如:依病人的症狀判斷是否罹患SARS ... 分類所需的資料前置處理 資料一般化 將連續性資料離散化,資料的數值分布精簡化 避免分類的品質不佳 特徵屬性選取(feature selection) 找出具有關鍵影響的屬性,將無關屬性去除 提高分類的精準度 注意 每筆建立分類模型的資料樣本,一定要有已知的分類標記(class label) ,包含這個已知分類標記的屬性稱之為標記屬性 是否購買筆記型電腦?標記屬性 分類的程序 建立模型 利用現有資料找出分類模型 模型的表示方式有: 分類規則(classification rules) 決策樹(decision trees) 數學公式(mathematical formulas) 評估模型 將資料分成訓練樣本(training samples) 及測試樣本(testing samples) 第一階段利用訓練樣本來建立模型 第二階段測試樣本評估準確性 使用模型 找出資料分類的原因 預測新進資料類型 分類程序的範例 (1) 步驟1:建立模型 分類程序的範例 (2) 步驟2:評估模型 分類程序的範例 (3) 步驟3:使用模型 假設有一位新會員陳建成前來註冊,其基本資料為35歲,單身,低收入 依分類模型所預測的結果為 “是”,也就是此會員有可能會購買筆記型電腦 該線上購物商店可對此會員進行一連串筆記型電腦的廣告行銷活動,例如寄送電子報,以促使顧客下單購買筆記型電腦 分類法的準確性 訓練測試法(training-and-testing) 資料樣本分為訓練和測試資料集,訓練資料集建立分類模型,利用測試資料集測試準確性 適合用在樣本空間非常大的情況 交互驗證法 (cross-validation) 資料樣本分成k個子樣本,輪流將k-1個子樣本當作訓練樣本,剩下一個子樣本當作測試樣本,重複做k次建立模型的工作之後,找出準確度最高的分類模型,也稱作k疊交互驗證法 (k-fold cross validation) 適合用在樣本空間不多的情況 自助法 (bootstrap method) 只留一筆資料當做測試樣本,其他全部拿來當訓練樣本,這是交互驗證法的特例 適合用在樣本空間非常小的情況 分類演算法的評估 (1) 準確度 速度 建立分類模型的速度 使用分類模型預測的速度 品質 藉由事後修剪 (postpruning) 降低分類模型複雜度 可詮釋性 (interpretability) 能不能從建立出來的分類模型去歸納、解釋 分類的原因 分類演算法的評估 (2) 其他的評估觀點 健全性 (robustness) 考量分類法對於雜訊以及遺缺值 (missing value) 的處理能力 擴展性 (scalability),考量分類法在資料樣本規模擴大時是否仍能在可容忍的時間內求得探勘的結果 第五章 資料分類法 簡介 以決策樹為基礎之分類法 非決策樹為基礎之分類法 何謂決策樹 決策樹(Decision tree ) 類似流程的樹狀結構。 樹的中間節點 (non-leaf nodes) 代表測試的條件 樹的分支 (branches) 代表條件測試的結果 樹的葉節點 (leaf nodes) 代表分類後所得到的分 類標記,也就是表示分類的結果 決策樹的產生程序與用途 決策樹的產生程序 步驟1:建立樹狀結構 開始時,所有的訓練樣本都在根節點 依據選取的屬性,重複地將樣本分隔開來 步驟2:修剪樹狀結構 辨識並且移除導致雜訊或特例的分支 決策樹的用途:分類未知的樣本 靠著決策樹測試樣本的屬性值 決策樹推論演算法 (1) 基本演算法(貪婪演算法,greed
文档评论(0)