网站大量收购独家精品文档,联系QQ:2885784924

statistica的分类树(classification tree).ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
statistica的分类树(classification tree)

STATISTICA的分類樹(classification tree) 南台科技大學企管系 呂金河 分類樹(classification tree) 目的 分類樹根據一個或者多個預測變數的測量值,透過不斷地劃分資料,使應變數的差別最大,最終目的是將資料分類到不同的組織或不同的分枝,建立最強的歸類。以便預測在一個屬性應變數的樣本的分類關係。 例如 根據疾病分類患者 根據起因分類設備故障 根據拖欠支付的可能性分類債款申請 根據婚姻狀況,教育程度,目前職稱,目前工作部門,來區分醫護人員的壓力水準(高、中、低)。 分類樹 方法 分類樹又稱決策樹,其建構的主要步驟有三: 第一是選擇適當的演算法(CART(Classification and Regression Trees CRT), FACT (Fast Algorithm for Classification Trees) 、 QUEST(Quick, Unbiased and Efficient Statistical Tree等)訓練樣本建構分類樹 第二是適當的修剪分類樹(如誤判成本(misclassification cost) 或誤判率(misclassification rate) 、成本-複雜修剪法 (cost –complexity pruning)等), 第三則是從分類樹中萃取知識規則,亦即利用歸納演算法產生分類規則和分類樹,再對新資料進行預測分析。 舉例 資料來源:statistica所提供的Boston2s.sta 為波士頓房價的資料,應變數為房價(Price)分為高、中、低三類。預測變數有1個定性變數(cat1),12個順序變數ample(ord1~ord12),原資料有506筆,作為學習樣本(learning sample),另複製原資料一份為測試樣本(test sample),故樣本數有1012個,以標籤變數(sample)區分兩類樣本。 目的:用13個預測變數來將房價(Price)分類為高、中、低三類,並研究13個預測變數如何將房價分類。 STATISTICA操作 點選多變量探索技巧 ?分類樹 ? 在進階欄 按變數?選擇要分析的反應變數,類別預測變數,順序預測變數,樣本定義標籤變數 ? 確定?確定(變數編碼值與樣本編碼值可以不用勾選,按確定後,會自動全選編碼值) ?在方法欄 選定三個方法(類別與順序預測變數之判別基礎單變量分裂,順序預測變數之線性組合基礎分裂,CRT類型徹底搜尋之單變量分裂(選用此法時還需再適合度欄的Gini量測、卡方、G-square三種量測法之ㄧ))之ㄧ;選定事先機率(估計、相等、使用者判定三個選項之ㄧ);選定錯誤分類成本(相等、使用者判定二個選項之ㄧ)?在停止選項欄 選定停止規則(依據錯誤分類判誤修剪、依據距離(deviation)修剪、FACT類型之直接停止三個選項之ㄧ); 選定停止參數 (最小樣本數、標準規則二個選項之ㄧ) ? STATISTICA操作 ?在抽樣選項欄的抽樣參數。設定隨機數字產生器的種子值; V-fold 交叉確認值(該值確定了交叉驗證(CV)的樣本數,從分析樣本中產生的交叉驗證樣本為分類樹中的每個分類提供了CV費用估計),分裂變數選取之p-值(當選擇基於判別的分裂方法時,使用該p值選擇重要的分裂變數) ? 確定。 在分類樹結果對話框 按樹狀圖?在樹狀結構欄 按分類樹結構,預測分類,分裂條件,樹狀結果序列,成本序列,預測變數重要性,重要性圖?在預測分類欄 按利用已觀測之分類預測分類,利用已觀測之分類指派節點,事先機率?在交叉認欄 的學習樣本欄 輸入 GCV的子集數,按執行整體性交叉確認?按錯誤分類矩陣之整體性交叉確認?在交叉認欄 的測試樣本欄 按錯誤分類矩陣,預測分類 分類樹結構 樹狀圖 利用已觀測之分類預測分類 預測變數重要性 利用已觀測之分類指派節點 交叉確認不一樣的V-fold結果不同 v-fold=3 v-fold=10 抽樣選項欄設定不一樣的V-fold結果不同 v-fold=3 v-fold=10 * * * *

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档