PrincipalComponentsAnalysis 主成分分析说明.ppt

下载文档 降价啦

2
0
约1.05万字
约 79页
2018-05-02 发布于天津
举报
版权申诉
保障服务

PrincipalComponentsAnalysis 主成分分析说明.ppt

1、本文档共79页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

當變數間是相互獨立的，其相關係數的矩陣對角線為1，而非對角線的部分則接近0，而其散佈圖看起來會像球型，而非橄欖球型，而所有的特徵值接近於1，也就是∣R∣接近於1，而In∣R∣接近於0。當∣R∣接近1時，Bartlett’s chi-square test接近0，因此我們無法去拒絕虛無假設，如果我們無法拒絕虛無假設，因此，我們可以做出下列結論：此資料不適合做主成份分析（不能縮減構面）。然而變數間相關係數較大，∣R∣趨近於0，在此情況下Bartlett’s chi-square值達顯著水準，因此我們可以拒絕虛無假設。 Burke 1984年研究企業策略目標的決定因素，在她的研究中一共有六個潛在重要性的環境變數，其相關矩陣列於表4.13（n=86），而其特徵值為：λ1=1.491，λ2=1.266，λ3=1.122，λ4=0.905，λ5=0.671，λ6=0.545。∣R∣=0.701，In∣R∣= -0.355。 Bartlett’s test=（p=6，n=86）從chi-square表中查出當自由度為15，在95%的信賴水準下，其值為25，因為檢定統計量值高於25，因此我們拒絕虛無假設。Bartlett’s test極易受到樣本數的影響，當樣本數很大時χ2值很容易顯著，幾乎檢定都會拒絕虛無假設，因此使用時需謹慎解釋其結果。 4.4.2 How Should the Data Be Scaled? 在我們所有的說明裡，都是使用標準化的資料，因此我們的焦點都是放在相關係數矩陣而非共變異數矩陣，雖然它不一定是必然的。在sample problem的資料中，13個經濟活動間（我們以佔總GSP的百分比表達），例如：在信託、保險、不動產業，平均佔17.1%，其標準差約5.2%；建築業平均佔4.3%，其標準差卻只有0.9%，依據上面所敘述的，以非標準化資料進行主成份，也會將最大經濟活動的地區組合起來。在其它的情況下，使用非標準化資料也許較合理，例如：市場調查，假設所有問題以Likert的五點尺度來評估（用5代表非常同意，1代表非常不同意），某些問題相對於其它問題可能有過多或過少的資訊，也許因為受調查者懶的回答或因為題意不清或有些問題的同質性太高，因為這些問題會提供我們資料表明那些問題是不具有資訊的，在之後使用非標準化的資料分析時，我們可以給予這些資訊較小的權重。從這個例子中我們可以相信，如果以非標準化的資料和在共變矩陣下執行主成份分析，雖然這改變了原始結果的本質，但有相同的洞察力。 4.43 How Many Components Should Be Retained？如果主成份能夠縮減構面，那接下來的問題是到底要取幾個主成份了。 Scree Plot（陡坡圖）此方法是由Cattell在1966年所提出，假定在X軸的部分為第n個主成份，Y軸則為其值的大小，在座標上點出每個主成份，之後將其連接起來，我們從圖中找出二點差距最大的部分（稱之為”elbow”）取”elbow”上面的點，而”elbow”下面的點則不取。圖4.14則是GSP的陡坡圖，其中最引人注目的彎曲處在第三個主成份（eiger value=1.96）及第四個主成份間，因此我們只取前三個主成份。然而實際上”elbow”可清楚顯示出來的圖並不多，我們畫出來的可能是一個平滑的曲線，如圖4.15。 Kaiser’s Rule 此準則由Kaiser在1960年所提出，Kaiser認為保留特徵值大於1的主成份。在GSP的例子中，共有五個主成份其特徵值大於1。然而λ5 =1.15，λ6 =0.86，如果我們以特徵值=1為底限，我們會取五個；如果以高於1（不包括接近1）的話，我們只會取四個。但假設我們今天想要有90%的解釋能力時，所取的特徵值必定會小於1，因此Kaiser Rule也只是評估參考的方法之一而已。 Horn’s Procedure Horn在1965年所提出的一種cutoff rule 。此方法並非固定取高於1的特徵值，而是從相同數量的變數、觀察值的原始資料中，隨機抽取進行主成份分析，為了計算Horn’s cutoff，我們從母體中隨機選取n×p個樣本資料矩陣，接著執行主成份分析，在原始資料的陡坡圖上畫上其陡坡圖，只保留相交點以上的特徵值，而此圖顯示於圖4.16。透過圖4.16的建議，我們只保留３個主成份（而在kaiser’s rule下，我們保留５個主成份），因此執行Horn’s procedure與kaiser’s rule相比較下，其保留較少的主成份。 Explained Variance 有時候保留一足夠數量的主成份來解釋原始資料是很重要的，例如，我們所保留的主成份必須要能夠說明至少原始資料變異數的５０