网站大量收购闲置独家精品文档,联系QQ:2885784924

Course 5集羣分析Cluster Analysis课件.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Course 5集羣分析Cluster Analysis课件.ppt

標稱變量 標稱變量是二元變量的推展,它可以具有多於兩個的狀態值。比如︰紅、綠、藍、黃。對於標稱型變量,值之間的排列順序是不重要的。 計算標稱變量所描述的對象(一個對象可以包含多個標稱變量)i和j之間的相異度 方法一︰簡單匹配方法 m: 匹配的數目,即對象i和j取值相同的變量的數目 (也可加上權重) 方法二︰對M個標稱狀態中的每個狀態創建一個新的二元變量,並用非對稱的二元變量來編碼標稱變量 紅 綠 藍 黃 取值 0 1 0 0 綠 0 0 1 0 藍 。。。。。。 * 序數型變量 一個序數型變量可以是離散的或者是連續的 序數型變量的值之間是有順序關係的,比如︰講師、副教授、正教授。 假設 f 是描述 n 個對象的一組序數型變量之一,f 的相異度計算如下︰ 1. 設的i個對象的f值為xif,則用它在值中的序rif ( ) 代替 2. 將每個變量的值域映射到[0,1]的空間 3. 採用區間標度變量的相異度計算方法計算f的相異度 * 比例標度變量 一個比例標度型變量xif是在非線性的標度中所取的正的度量值,例如指數標度,近似的遵循以下公式︰ AeBt or Ae-Bt 計算比例標度型變量描述的對象之間的相異度 採用與區間標度變量同樣的方法──標度可能被扭曲,效果往往不好 對比例標度型變量進行對數變化之後進行與區間標度變量的相似處理 yif = log(xif) 將xif看作連續的序數型資料,將其秩作為區間標度的值來對待 * 混合類型的變量 在真實的資料庫中,資料對象不是被一種類型的度量所描述,而是被多種類型(即混合類型)的度量所描述,包括︰ 區間標度度量、對稱二元變量,不對稱二元變量,標稱變量,序數型變量合比例標度變量 計算混合型變量描述的對象之間的相異度 將變量按類型分組,對每種類型的變量進行單獨的集羣分析 在每種集羣分析導出相似結果的情況下可行 所有變量一起處理,進行一次集羣分析,可以將不同類型的變量組合在單個相異度矩陣中,把所有有意義的變量轉換到共同的值域區間[0,1]之內 * ? 主要的集羣方法 集羣分析演算法種類繁多,若演算法選擇取決於: 類似性指標: 階層集羣分析 (Hierarchical Cluster Analysis) 非階層集羣分析 (Nonhierarchical Cluster Analysis) Q型因素分析 上述三種方法中,以階層集羣分析與Q型因素分析。在此以非階層集羣分析中的華德氏階層羣集分析為例 資料類型,集羣的應用和目的: 劃分方法 層次的方法 基於密度的方法 基於網格的方法 基於模型的方法 實際應用中的集羣演算法,往往是上述集羣方法中多種方法的整合 * 6 5 2 4 階層集羣分析 N個Objects未分類前,每個Object自成一類,共有N類。 經過N-1次歸類程序後,所有Objects成一個大集羣。每次歸類時各集羣合併的情形及合併後組內誤差增加的數量,會以階層樹狀圖 (Dendrogram)表示。 F E G D C B A A B C D E F G 1 3 * 非階層集羣分析 事先挑選集羣核心和訂定臨界值,所有Objects與該集羣核心之距離只要沒有超過臨界值,一律歸併入該集羣內,否則屬於其它集羣。 A B C D E F G * 華德氏階層羣集分析 這個方法在集羣分析之始,將每個Object各視為一個集羣,然後將各集羣依次合併。 何者先合併,何者後合併,完全視合併後集羣之組內總變異程度而定。 範例: * 距離函數平方和d2AB= * 利用前面所求得的距離函數平方和矩陣,來計算每對Objects的組內誤差矩陣 (Error Matrix for Each Pair of Objects). 組內誤差矩陣: 同一集羣內各Profiles間距離函數之平方和,除以該集羣之Objects數 EAB = d2AB/N * 這些數據中以E和F所組成的集羣之組內誤差最小,因此將E和F合併成一集羣,並將之定名為E’ EAE’ =[EAE(NA+NE)+EAF(NA+NF)+EEF(NE+NF) -EAA(NA)-EEE(NE)-EFF(NF)]/(NA+NE+NF) =[38.5(1+1)+33(1+1)+0.5(1+1) -0(1)-0(1)-0(1)]/(1+1+1) =48 * * ... ... ... ... ... ... ... ... ... ... ... ... ... Course 5 集羣分析 Cluster Analysis ? Outlines 什麼是集羣分析? 集羣分析的典型應用 集羣分析應用實例 什麼是好的集羣分析? 資料挖掘對集羣分析

文档评论(0)

liuxiaoyu99 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档