- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
§10.3 样本的主成分 我们可以从协差阵Σ或相关阵R出发求得主成分。但在实际问题中,Σ或R一般都是未知的,需要通过样本来进行估计。设数据矩阵为 则样本协差阵和样本相关阵分别为 其中 为样本均值。 可以用S代替Σ,用代替R,然后从S或 出发按类似于上一节的方法求得样本主成分。 §10.3 样本的主成分 一、从S出发求主成分 二、从 出发求主成分 三、主成分分析的应用 四、若干补充及应用中需注意的问题 一、从S出发求主成分 用类似于上一节的方法,以S代替Σ即可求得样本主成分。设 为S的特征值, 为相应的单位特征向量,且彼此正交。则第i样本主成分为 ,它具有样本方差 , i=1,2,…,p,各主成分之间的样本协方差为零。在几何上,p个样本主成分的方向为 所在的方向,且彼此垂直。n个样品点在 上的投影点最为分散,在其余 上投影点的分散程度依次递减。 总样本方差 xi与 的样本相关系数 其中 ,k=1,2,…,p。 主成分得分 在实际应用中,我们常常让xj 减去 ,使样本数据中心化。这不影响样本协差阵S,在前面的论述中惟一需要变化的是,将第i主成分改写成中心化的形式,即 若将各观测值xj代替上式中的观测值向量x,则第i主成分的值 称之为观测值xj的第i主成分得分。所有观测值的平均主成分得分 二、从 出发求主成分 设样本相关阵 的p个特征值为 , 为相应的正交单位特征向量,则第i样本主成分 其中x*是各分量经(样本)标准化了的向量,即 标准化后的主成分得分 令 这是xj的各分量数据经标准化后的数据向量,将其代替上述样本主成分公式中的x*,即得观测值xj在第i主成分上的得分 所有观测值的平均主成分得分 三、主成分分析的应用 在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。 主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。 如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。 主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。 主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。 例10.3.1 在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、肋围(x5)和腰围(x6) 。所得样本相关矩阵列于表10.3.1。 x1 x2 x3 x4 x5 x6 x1 1.000 x2 0.79 1.000 x3 0.36 0.31 1.000 x4 0.76 0.55 0.35 1.000 x5 0.25 0.17 0.64 0.16 1.000 x6 0.51 0.35 0.58 0.38 0.63 1.000 表10.3.1 男子身材六项指标的样本相关矩阵 经计算,相关阵 的前三个特征值、相应的特征向量以及贡献率列于表10.3.2。 表10.3.2 的前三个特征值、特征向量以及贡献率 特征向量 :身高 0.469 ?0.365 0.092 :坐高 0.404 ?0.397 0.613 :胸围 0.394 0.397 ?0.279 :手臂长 0.408 ?0.365 ?0.705 :肋围 0.337 0.569 0.164 :腰围 0.427 0.308 0.119 特征值 3.287 1.406 0.459 贡献率 0.548 0.234 0.077 累计贡献率 0.548 0.782 0.859 前三个主成分分别为 从表10.3.2中可以看到,前两个主成分的累计贡献率已达78.2%,前三个主成分的累计贡献率达85.9%,因此可以考虑只取前面两个或三个主成分,它们能够很好地概括原始变量。
文档评论(0)