- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树
決策樹分析 簡介 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹基本觀念 決策樹的優、缺點 分類與迴歸樹(CART) 分類與迴歸樹(CART) 確認入選的分支決策樹: 我們的目標是首先將提供最少額外預測能力的分支先修剪掉。為了確認這些最沒用的分支,我們引入一個決策樹的『調節錯誤率』(adjust error rate)的觀念。這是一種衡量方法,逐一檢視每一個葉部,確認最弱勢的分支(那些無法有效降低整棵決策樹錯誤率的分支),然後將它們標示出來加以修剪 分類與迴歸樹(CART) 分類與迴歸樹(CART) 分類與迴歸樹(CART) 評估分支樹: 最後工作是從入選的分支樹中選出最能分類新資料的決策樹。為達到此目的,我們使用第二個預先分好的資料組,即『測試組資料』(test set)。測試組和訓練組來自同一群母體,但包含的資料不同。入選分支樹中每一個都被用來分類測試組資,得出最低的整體錯誤率的就是勝利者。 分類與迴歸樹(CART) 評估最佳的分支樹: 最後工作是從利用第三組資料,將測試組和訓練組打散,即『評估組資料』(evaluation set)。入選分支樹應用在評估組所得出的錯誤率,來預期這個分支樹在未經分類的資料上使用時的錯誤率。 分類與迴歸樹(CART) 將代價列入考量?: 我們討論至此,只使用錯誤率作為評估一個分支樹良莠的依據。然而,在許多應用上,錯誤分類的代價依資料類別不同而有異。 當然在醫療診斷上,一個錯誤的陰性診斷(negative)也許會比錯誤的陽性診斷(positive)傷害更大。在進行癌症抹片檢查時,誤診為性也許只會帶來更多的檢查,但誤診為陰性卻可能讓病情惡化。我們可以把問題列入考量,以一個使用加權方式將錯誤分類的機率加倍的代價函數,來取代錯誤率。 C4.5 C4.5是必威体育精装版出現的決策樹演算法的速成法,是澳州研究者昆蘭(J. Ross Quinlan)多年努力成果。與CART差異: 培養決策樹: C4.5與CART之間的第一個差異是CART在每一個節點都呈現二分法,因此產生二分式決策樹,而C4.5則在每一個節點產不同數目的分支。這是因為C4.5對持續性變項的處理方式和CART相當類似,但對類別變項的處理就相當不同。 C4.5 修剪決策樹: CART使用決策樹的分散度為度量,來標記不同的分支樹,然後以沒有見過的預先分類好的資料(測試組)來測試這些分支樹。相反的,C4.5並不參考其他資料,嘗試以只用訓練資料的情況下來修剪決策樹。因此,C4.5使用建構決策樹的相同資料來決定該如何加以修剪。 C4.5 從決策樹到規則: 我們可以在不改變分類行為的前提下藉著合併到葉部的路徑來向這個目標走出第一步。下圖的決策樹部分得出以下的規則:? 看球賽加上地主隊獲勝加上跟朋友出門,就會得出啤酒。 看球賽加上地主隊獲勝加上待在家裡,就會得出健怡汽水。 看球賽加上地主隊輸球加上跟朋友出門,就會得出啤酒。 看球賽加上地主隊輸球加上待在家裡,就會得出牛奶。 C4.5 CHAID CHAID是哈根(J.A. Hartigan)在1975年率先提出的演算法,這是本章所討論的最古老的演算法。這也是最受到廣泛使用的演算法,因為它隨著SPSS和SAS等受歡迎的統計軟體流通。CHAID是從更早的一套自動互動偵測系統AID衍生而來,後者是摩根(J.A. Morgan)與桑奎斯特(J.N. Sonquist)在1963年提出。 CHAID CHAID與C4.5及CART的差異: CHAID和C4.5及CART兩種演算法的最大差異在於,後兩者先過度套用資料,再加以修剪,而CHAID嘗試在過度套用的情況發生之前就讓決策樹停止蔓生擴大。 另一個差異是CHAID只限於類別變數使用,連續變數必須被區隔成幾個區段範圍,或是以高,中,低等類別來取代。 CHAID 培養決策樹: 如同其他兩種方法,CHAID演算利用輸入變數找出一個方法,將訓練組資料分隔成兩個或兩個以上子節點。這些子節點被選擇的方式是輸出變數遇上某個特定數值的機率隨著節點不同而有所差異。 CHAID 選擇分隔變數: 經過第一步驟之後,我們得出以下的表: CHAID 杏仁燒魚,鮪魚沙拉,生魚片 ? 魚肉 鵝肝醬,水牛城雞翅,碎雞肝 ? 禽肉 牛腰肉,麥香堡,罐頭牛肉,碎羊肉 ? 紅肉 CHAID 重新分隔類別: 第一步無法在輸出數上產生顯著統計差
文档评论(0)