- 1、本文档共31页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 主成分分析PPT课件
Principal Components Analysis
主成分分析; 在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来的指标重新组合成一族新的互相无关的、较少的综合指标,尽可能多地反映原来指标的信息。这种将多个指标转化为少数相互无关的综合指标的统计方法叫主成分分析。;多元问题的复杂性:指标(变量)多,指标间存在相关性。
问题∶能否构造出一些综合指标使满足如下条件∶
① 指标个数尽可能少,
② 指标间相互独立,
③ 尽可能多地包含原指标所含的关于总体的信息。
例如∶做一件上衣要测量的指标有∶身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(分别反应长度、胖瘦、特体),用作分类的型号。;
因此,主分量(主成分)分析是将原来众多具有相关性的指标化为少数几个相互独立的综合指标的一种统计方法。;2、主成分数学模型及几何解释;设p维随机变量 的数学期望为0,
的主分量指的是综合变量
它满足如下条件∶
① ,其中 是正交矩阵。
即∶;问题∶ 的主分量是否存在? 使①②成立的正交矩阵是否存在?
问题解决思路∶假设主分量存在,看一下U应满足什么的条件,能否按照这个条件把U求出来。;即
;定理: 设p维随机变量 的数学期望为0,且协方差阵为 ,它的特征值为
为相应的单位特征向量,则x 第 i主成分为
; 是样本点在其第 i个主成份方向上的方差(分散程度),如果 的值很小,说明样本间在坐标 的方向上分散程度很小,这个主成份在分析样本数据时所起作用不大,可以忽略不计。那么 小到什么程度才认为无足轻重,可以忽略呢?为此引入方差贡献率。
称比值 为第k个主成分 的方差贡献率。;为前m个主成分 的累计方差贡献率。;主成分主要性质;R 分析;§2.2 主分量分析的计算步骤与应用;特征向量及特征根表
叶长 0.1485 -0.9544 0.2515 -0.0614
2/3处宽 -0.5735 0.0984 0.7734 0.2514
1/3处宽 -0.5577 -0.2695 -0.5585 0.5517
1/2处宽 -0.5814 -0.0824 -0.1629 -0.7929
特征根 2.9200 1.0237 0.0489 0.0074
贡献率 72.9996 25.5919 1.2230 0.1856
累积贡献率 72.9996 98.5915 99.8145 100.00;;原始数据矩阵应是128×16阶的矩阵; 如第一列向量 ,即是128人按身长量
出的尺寸。
第二行向量 ,是第二个男子按上述16
项指标量出的尺寸。
1、样本相关系数矩阵
首先计算各指标的均值与样本标准差
;2、标准化处理
将Y经过标准化处理,得数据矩阵X,从而可得样本相关数据矩阵R,由于矩阵R是对称的,因此只列出下三角形部分元素。;; 由相关系数矩阵的数值可见,反映“长”的尺寸相关系数比较大,如身长与头高限度 r1,4=0.96的相关系数最大。
身长与裤长、坐高、下裆、袖长、手长的相关系数也
相当大,反映“围”的尺寸的相关系数也比较大,如胸围
与领围r3,8=0.58,胸围与肋围r3,14=0.64,胸围与腰围r3,14=0.58。;;4、主成份:
第一主成份:
; 在以上表中若取前三个特征值的累计方差贡献率可达到
70%,不妨就取这前三个特征值可求其相应的特征向量。
;5、主成份的含义
从三个特征向量 的取值特点我们来分析和解释各主成份的含义
;(2)、第二主成份F2的系数有正有负,其绝对值的大
文档评论(0)