- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
statistica的集群分析
STATISTICA的集群分析(Cluster Analysis) 南台科技大學企管系 呂金河 集群分析(Cluster Analysis) 目的:集群分析的目的主要是要將觀察點分群,使得每群內元素對集群變數而言,同質性高,期能掌握集群結構。對資料作簡化及分類的工作。 例如: (1)投資銀行的財務分析師想指出最值得接收的公司群名單。 (2)行銷經理想指出可以用來檢測市場情況的相似城市的名單。 (3)某候選人的競選活動經理想指出對某重要議題有相似觀點的選民群集 方法與步驟: (1)量測相似性: 分群的基本原則是同質的個案集成一群,而同質性的衡量對分析性變數,用距離(含歐氏距離、市街距離等),對分類性變數,用相似性 (含匹配相似量數、1-Pearson相關係數等)衡量。 (2)決定分群的方法: 分群的方法分為 (a)層次法(hierarchical method) (包含單一(最近)連結法、完全(最遠)連結法、平 均(中心)連結法、重心連結法、華德 (Ward)法等)與 (b)非層次法(nonhierarchical method) (常用K- means法)二大類。 (3)決定分群的群數 先用層次法分群,用華德法等樹狀圖的高度對分群個數畫陡坡圖,跳躍量最大處的右端點即為最適分群個數,或用R2、半偏R2等決定分群個數。 (4)最後的分群 用層次法決定分群個數(可用層次法分群的各群中心值為初始種子),再做K-means法決定最後的分群 (5)群聚解的解釋 由one-way ANOVA,若各變數在各群的均值差異顯著,則可由其均值大小對各分群命名。 Note:若各個變數的單位不一或變異數差異大,在集群過程中計算距離時容易導致各個變數的權重不一樣,從而導致集群結果產生很大偏差,所以在進行集群之前要對原始資料進行標準化使得各個變數的均值為0,標準差為1。 STATISTICA操作 先做層次法: 點選多變量探索技巧 ?叢聚分析 ? 結合(樹狀叢聚) ? 確定? 在進階對話框上 按變數?選擇全部(將5個變數右移至變數欄) ? 確定? 在輸入檔案 選原始資料?在叢聚依據 選案例(列) ?在合併(連結法則) 選單連法、全連法、Ward’s法之一?在距離量測選歐氏距離? 確定?在進階對話框上 按水平階層樹狀圖,垂直冰柱圖(勾選矩形分支或/且樹狀圖尺度為(連結距離/最大距離的)標準化)?按合併過程一覽表,以圖表顯示合併過程及近似性矩陣 ?判定要分幾群 舉例 資料來源:statistica所提供的car.sta 共有5個變數,22個case 1.汽車的近似市場價格(Price) 2.汽車的加速度(Acceleration) 3.汽車的煞車能力(Braking) 4.車輛行駛性能指數(Handling) 5.汽車耗油量(Mileage) 目的:研究各種廠牌的汽車是否可以歸成更有意義 的類別。 單連法樹狀圖 矩形分支且樹狀圖尺度為(連結距離/最大距離的)標準化都不勾選的樹狀圖 以圖表顯示合併過程 Ward法樹狀圖 以圖表顯示合併過程 STATISTICA操作 再做非層次法(K-means法): 點選多變量探索技巧 ?叢聚分析 ? K組平均數叢聚 ? 確定? 在進階對話框上按變數?選擇全部(將5個變數右移至變數欄) ? 確定? 在叢聚依據 選案例(列) ?在叢聚數目 鍵入分群個數?勾選起始叢聚中心點的方法? 確定?在進階對話框上 按摘要:叢聚平均數與歐氏距離? 按變異數分析? 按平均數圖? 按每項叢聚之敘述統計量,每項叢聚與距離之組成成員? 按儲存分類與距離?在ANOVA表的各變數若差異顯著,則由各群在各變數平均值的大小,對集群命名 叢聚平均數 變異數分析 平均數圖 每項叢聚與距離之組成成員 行列二變量結合的集群分析 在STATISTICA7.0的集群分析也有不同的分類: 依集群變數可分為案例集群 (Case Cluster Analysis,又稱Q集群),和變數集群(Variable Cluster Analysis,又稱R集群);依按集群方法可分為結合集群(Joining Cluster Procedures),疊代分割集群(Iterative Partitioning Procedures) ,二維集群 (Two-way joining)三種方法, 二變量結合(Two-way joining)集群方法操作: 點選多變量探索技巧 ?叢聚分析 ?二變量結合 ? 確定? 在進階對話框上按變數?選擇全部(將5個變數右移至變數欄) ? 確定? 在門檻值
文档评论(0)