- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十四讲:主成分分析
2 / 34
本讲将介绍主成分分析(Principal Component Analysis,PCA), 主成分分析是一种降维算法,它能将多个指标转换为少数几 个主成分,这些主成分是原始变量的线性组合,且彼此之间 互不相关,其能反映出原始数据的大部分信息。一般来说, 当研究的问题涉及到多变量且变量之间存在很强的相关性时, 我们可考虑使用主成分分析的方法来对数据进行简化。
问题的提出
3 / 34
在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑 会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之 间是具有一定的相关关系的。
因此,人们会很自然地想到,能否在相关分析的基础上,用较少 的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地 保留原来变量所反映的信息?
事实上,这种想法是可以实现的,主成分分析方法就是综合处理这 种问题的一种强有力的工具。
主成分分析是把原来多个变量划为少数几个综合指标的一种统计 分析方法。
从数学角度来看,这是一种降维处理技术。
数据降维的作用
4 / 34
降维是将高维度的数据(指标太多)保留下最重要的一些 特征,去除噪声和不重要的特征,从而实现提升数据处理速度 的目的。
在实际的生产和应用中,降维在一定的信息损失范围内, 可以为我们节省大量的时间和成本。降维也成为应用非常广泛 的数据预处理方法。
降维具有如下一些优点:
使得数据集更易使用;
降低算法的计算开销;
去除噪声;
使得结果容易理解。
一个简单的例子
例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸 围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型 服装绝不可能把尺寸的型号分得过多 ?而是从多种指标中综合成几 个少数的综合指标,做为分类的型号,利用主成分分析将十几项指 标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指 标,一项是反映特殊体型的指标。
5 / 34
主成分分析的思想
6 / 34
主成分分析的思想
7 / 34
严谨的数学符号
8 / 34
严谨的数学符号
参考教材:《应用多元统计分析》王学民
PCA详细的证明过程可看视频:/video/a(证明过程需要一定的多元统计基础和较强的线性代数基础)
9 / 34
PCA的计算步骤
10 / 34
PCA的计算步骤
11 / 34
PCA的计算步骤
12 / 34
PCA的计算步骤
13 / 34
教材例题1讲解
14 / 34
参考教材:《应用多元统计分析》王学民
在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的 指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、 肋围(x5)和腰围(x6) 。所得样本相关系数矩阵(对称矩阵哦)列于下表。
x1
x2
x3
x4
x5
x6
x1
1.000
0.79
0.36
0.76
0.25
0.51
x2
0.79
1.000
0.31
0.55
0.17
0.35
x3
0.36
0.31
1.000
0.35
0.64
0.58
x4
0.76
0.55
0.35
1.000
0.16
0.38
x5
0.25
0.17
0.64
0.16
1.000
0.63
x6
0.51
0.35
0.58
0.38
0.63
1.000
注意:本题给我们的数据直接就是样本相关系数矩阵,一般来说,大家自己 建模的时候,得到的数据是最原始的数据(每一列是指标,每一行是样本)。
计算关键变量
经过计算,相关系数矩阵的特征值、相应的特征向量以及贡献率列于下表:
特征向量
a1
a2
a3
a4
a5
a6
x1:身高
0.469
−0.365
0.092
-0.122
-0.080
-0.786
x2:坐高
0.404
−0.397
0.613
0.326
0.027
0.443
x3:胸围
0.394
0.397
−0.279
0.656
0.405
-0.125
x4:手臂长
0.408
−0.365
−0.705
-0.108
-0.235
0.371
x5:肋围
0.337
0.569
0.164
-0.019
-0.731
0.034
x6:腰围
0.427
0.308
0.119
-0.661
0.490
0.179
特征值
3.287
1.406
0.459
0.426
0.295
0.126
贡献率
0.548
0.234
0.077
0.071
0.049
0.021
累计贡献率
0.548
0.782
0.859
0.930
0.979
1.000
15 / 34
从表中可以看到前三个主成分的累计贡献率达85.9%,因此可以考虑 只取前面三个主成分,它们能够很好地概括原始变
您可能关注的文档
- 数模 第5讲.相关系数.pptx
- 数模 第6讲.典型相关分析.pptx
- 数模 第7讲:多元线性回归分析.pptx
- 数模 第8讲.图论最短路径问题.pptx
- 数模 第9讲.分类模型.pptx
- 数模 第10讲.聚类模型.pptx
- 数模 第11讲.时间序列分析.pptx
- 数模 第12讲.预测模型.pptx
- 数模 第13讲.奇异值分解SVD和图形处理.pptx
- 数模 第1讲.层次分析法.pptx
- 人教版英语5年级下册全册教学课件.pptx
- 部编人教版2年级上册语文全册教学课件含单元及专项复习.pptx
- 人教版8年级上册英语全册教学课件(2021年8月修订).pptx
- 教科版(2017版)6年级上册科学全册课件+课时练.pptx
- 人教版PEP版6年级英语下册全册教学课件(2022年12月修订).pptx
- 部编人教版2年级下册语文全册课件(2021年春修订).pptx
- 人教版数学6年级下册全册教学课件(2023年教材).pptx
- 湘少版5年级下册英语全册教学课件(2021年春修订).pptx
- 人教PEP4年级下册英语全册教学课件 [2}.pptx
- 人教版6年级上册英语全册教学课件.pptx
最近下载
- 科学一年级下册《第一单元 身边的物体》大单元整体教学设计2025.docx
- 第四章-vcenter server介绍.pptx
- 项目一任务一 水果的挑选(教学设计)小学劳动浙教版四年级上册.docx
- 24设计开发输出清单.docx VIP
- 2025年金华职业技术学院单招职业适应性测试题库及完整答案一套.docx VIP
- 2024年湖南省高考数学试卷(含答案详解).docx
- 主题意义探究下的小学英语单元整体教学.pptx
- 2023--2024学年广东省深圳市深圳中学八年级历史上册期中试卷(含解析).pdf VIP
- 2024年高等教育文学类自考-00181广告学(一)历年高频考点试卷专家荟萃含答案.docx
- 《现代社会调查方法》配套教学课件.pptx
文档评论(0)