- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析讲解
Dept. of Epidemio Biostat, SPH 主成分分析 Principal Component Analysis 统计学研究的核心问题? 没有变异就没有统计学 方差是什么? 方差是信息 多元世界的信息度量 多元世界的每个变量的包含信息不同 在单个变量方差不变的情况下,各变量相关性越高,则总信息量越小 两组变量: A B 协方差矩阵 样本的方差-协方差矩阵(variance-covariance matrix) 如果有p个观测变量 , 则样本的协方差矩阵记为 相关矩阵 如果有p个观测变量 ,其相关阵(correlation matrix)记为 矩阵的特征值和特征向量 对于方阵A,如存在常数λ及非零向量x,使 Ax= λx 则λ为A的一个特征值,x为与λ对应的矩阵A的特征向量。 n介方阵有n对特征值和特征向量 正交向量(阵)、单位向量 正交向量: a=(a1,…,ap)’, b=(b1,…,bp)’ 如果a’b=a1b1+…+apbp=0,则称a、b正交 单位向量:向量a=(a1,…,ap)’,如果 则称a为单位向量 正交阵:n阶方阵A,如果 AA’=A’A=I,则称A为n阶正交阵,其中 A的列向量(或行向量)为正交向量,A’=A-1 主成分的概念 1 设x1,x2,…xp为 p 维随机变量 X1,X2,…,Xp的标准化变换 如果其线性组合 满足 则称C1为第一主成分。 主成分的概念 2 若 满足 则称C2为第二主成分。 类似地,共可得到至多 p 个主成分。 主成分的性质 主成分 C1,C2,…,Cp 具有以下性质: (1)主成分间互不相关Corr(Ci,Cj)=0 i ? j (2) 组合系数(ai1,ai2,…,aip)构成的向量为单位向量 (3)各主成分的方差是依次递减的, 即 Var(C1)≥Var(C2)≥…≥Var(Cp) (4) 总方差不增不减, 即 Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp) =p 主成分的计算 1 设 R 为 X1,X2,…,Xp 的相关矩阵,则存在?1≥?2≥…≥?p≥0,和正交矩阵A,使 其中?i为相关矩阵R的第i个特征值(eigenvalue) (ai1 ai2 … aip)’则是相关矩阵R的第i个特征值对应的特征向量。 ?i是第i个主成分的方差 主成分的计算 2 记主成分C=(C1 C2 … Cp)’,则 C=A’x 即 主成分的计算 3 因子模型(全分量模型)表达形式 x=AC 即 矩阵A称载荷矩阵,反映各主成分对原始变量x各分量的贡献大小。 主成分的计算 4 因子模型(全分量模型)表达-- 主成分标准化变换 x=Lc 实例 城市男生形态资料数据来自方积乾《医学统计学与电脑试验》第2版 实例主成分分析结果—特征值(方差)及其比例 主成分分析结果—L矩阵 主成分分析结果—L矩阵 主成分和原变量的关系 观察L矩阵,由相关系数做出解释 主成分未必一定有明确的解释 选取有明确解释的主成分做综合指标,主成分得分就是“综合指数”。 实例的标准化第一主成分得分 实例的标准化第一、二主成分得分 主成分数目的保留—降维问题 保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡。 实际上就是看特征值 λ 的大小 保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。 主成分分析的应用 综合指标的抽取 主成分回归 解决自变量严重共线性问题 主成分判别 解决解释变量的共线性问题 变量聚类中计算相似系数 因子分析 例--主成分回归 22例胎儿受精龄(Y,周)与胎儿外型测量指标: 均数 标准差 身高(X1, cm) 33.
文档评论(0)