网站大量收购独家精品文档,联系QQ:2885784924

数模 第14讲.主成分分析.pptx

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十四讲:主成分分析 2 / 34 本讲将介绍主成分分析(Principal Component Analysis,PCA), 主成分分析是一种降维算法,它能将多个指标转换为少数几 个主成分,这些主成分是原始变量的线性组合,且彼此之间 互不相关,其能反映出原始数据的大部分信息。一般来说, 当研究的问题涉及到多变量且变量之间存在很强的相关性时, 我们可考虑使用主成分分析的方法来对数据进行简化。 问题的提出 3 / 34 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑 会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之 间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少 的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地 保留原来变量所反映的信息? 事实上,这种想法是可以实现的,主成分分析方法就是综合处理这 种问题的一种强有力的工具。 主成分分析是把原来多个变量划为少数几个综合指标的一种统计 分析方法。 从数学角度来看,这是一种降维处理技术。 数据降维的作用 4 / 34 降维是将高维度的数据(指标太多)保留下最重要的一些 特征,去除噪声和不重要的特征,从而实现提升数据处理速度 的目的。 在实际的生产和应用中,降维在一定的信息损失范围内, 可以为我们节省大量的时间和成本。降维也成为应用非常广泛 的数据预处理方法。 降维具有如下一些优点: 使得数据集更易使用; 降低算法的计算开销; 去除噪声; 使得结果容易理解。 一个简单的例子 例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸 围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型 服装绝不可能把尺寸的型号分得过多 ?而是从多种指标中综合成几 个少数的综合指标,做为分类的型号,利用主成分分析将十几项指 标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指 标,一项是反映特殊体型的指标。 5 / 34 主成分分析的思想 6 / 34 主成分分析的思想 7 / 34 严谨的数学符号 8 / 34 严谨的数学符号 参考教材:《应用多元统计分析》王学民 PCA详细的证明过程可看视频:/video/a(证明过程需要一定的多元统计基础和较强的线性代数基础) 9 / 34 PCA的计算步骤 10 / 34 PCA的计算步骤 11 / 34 PCA的计算步骤 12 / 34 PCA的计算步骤 13 / 34 教材例题1讲解 14 / 34 参考教材:《应用多元统计分析》王学民 在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的 指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、 肋围(x5)和腰围(x6) 。所得样本相关系数矩阵(对称矩阵哦)列于下表。 x1 x2 x3 x4 x5 x6 x1 1.000 0.79 0.36 0.76 0.25 0.51 x2 0.79 1.000 0.31 0.55 0.17 0.35 x3 0.36 0.31 1.000 0.35 0.64 0.58 x4 0.76 0.55 0.35 1.000 0.16 0.38 x5 0.25 0.17 0.64 0.16 1.000 0.63 x6 0.51 0.35 0.58 0.38 0.63 1.000 注意:本题给我们的数据直接就是样本相关系数矩阵,一般来说,大家自己 建模的时候,得到的数据是最原始的数据(每一列是指标,每一行是样本)。 计算关键变量 经过计算,相关系数矩阵的特征值、相应的特征向量以及贡献率列于下表: 特征向量 a1 a2 a3 a4 a5 a6 x1:身高 0.469 −0.365 0.092 -0.122 -0.080 -0.786 x2:坐高 0.404 −0.397 0.613 0.326 0.027 0.443 x3:胸围 0.394 0.397 −0.279 0.656 0.405 -0.125 x4:手臂长 0.408 −0.365 −0.705 -0.108 -0.235 0.371 x5:肋围 0.337 0.569 0.164 -0.019 -0.731 0.034 x6:腰围 0.427 0.308 0.119 -0.661 0.490 0.179 特征值 3.287 1.406 0.459 0.426 0.295 0.126 贡献率 0.548 0.234 0.077 0.071 0.049 0.021 累计贡献率 0.548 0.782 0.859 0.930 0.979 1.000 15 / 34 从表中可以看到前三个主成分的累计贡献率达85.9%,因此可以考虑 只取前面三个主成分,它们能够很好地概括原始变

文档评论(0)

好文档制作 + 关注
实名认证
服务提供商

医学PPT制作等, 文档批量转化等,其他各类高校PPT制作。

1亿VIP精品文档

相关文档