- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.
.
空气污染研究的主成分分析
一、提出问题
本文对于给定的某城市42天中午12点的空气污染数据进行主成分分析,主要解决以下几个问题:
分别用样本协方差矩阵和样本相关矩阵作主成分分析,对比二者的结果差异;
对原始数据的变化选取三个或者更少的主成分反映,并对所选的主成分做出解释。
二、分析问题
主成分分析旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了系统、全面地分析问题,我们必须考虑众多影响因素。因为每个因素都在不同程度上反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。本文中所研究的问题变量较多,因此利用主成分分析法研究本问题,减少计算量和降低分析问题的复杂性。
针对问题一,首先将数据标准化,计算样本协方差矩阵和相关矩阵,然后分别计算样本协方差矩阵和相关矩阵的特征值和特征向量,贡献率和累计贡献率,确定选取成分个数,列出主成分方程并解释主成分意义。
针对问题二,考虑主成分的贡献率,只要主成分的累计贡献率达到80%,就可以反映原始数据的变化,并且对所选取的主成分做出解释。
三、模型假设
1、影响污染程度的变量只有本文中所提到的变量;
2、随机选取的42天;
3、题目中所提到的城市是平衡发展,政府对环境治理干预较小,即此城市的环境不会出现强烈波动;
4、题目中所给的污染浓度及气象参数有效,数据都准确可靠,同时不考虑人为因素、检测仪器精确度不同等影响。
四、符号说明
符号
符号含义
样本方差
原始变量
样本主成分
样本协方差
样本相关矩阵
样本平均值
协方差矩阵
特征向量矩阵
矩阵的特征值
矩阵的特征向量
Ω
信息提取率
五、问题求解
5.1协方差矩阵主成分分析
设是的协方差矩阵,的特征值与正交化特征向量分别为及,且的第个主成分为
(1)
根据已有数据计算得样本的均值向量为
根据协方差矩阵计算公式
(2)
代入数据可求得随机变量相应的样本协方差矩阵为
利用特征值计算公式代入数据可求得的特征值与对应单位正交化特征向量分别为
,
,
,
,
,
,
,
利用第个主成分的贡献率
(3)
及前个主成分的累计贡献率
(4)
代入数据计算得的各标准化主成分的贡献率及累计贡献率(如表1所示),可以看出,前三个标准化样本的累计贡献率已经达到98.6968%,故只需提取前三个主成分即可:
表1 的各标准化主成分的贡献率及累计贡献率
贡献率(%)
累计贡献率(%)
1
304.2579
87.2948
87.2948
2
28.2761
8.1127
95.4075
3
11.4645
3.2893
98.6968
4
2.5243
0.7242
99.4210
5
1.2795
0.3671
99.7881
6
0.5287
0.1517
99.9398
7
0.2096
0.0601
100.0000
记主成分向量为
由 ,
知的前三个主成分分别为
因此,用前三个主成分代替原来7个变量,信息损失量较小。
进一步由与的相关系数
(5)
计算出前三个主成分与各原始变量的相关系数如下表:
主成分相
主
成
分
相
关
系
数
原
变
量
0.1087
0.2576
-0.0672
-0.9994
0.0357
-0.0014
-0.1937
-0.4181
0.4675
0.0740
0.0626
0.4111
-0.1274
-0.2369
0.9585
-0.3521
-0.9299
-0.1041
-0.0613
-0.1824
0.4168
由表可看出,与相关度较高,而由相关矩阵的主成分权重系数(即特征向量中的各个值)知,太阳辐射对空气污染的影响最大;与相关度较高,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大;与相关度较高,同理,由相关矩阵的主成分权重系数(即特征向量中的各个值)知,对空气污染的影响较大。考虑前三个主成分的贡献率依次降低,得出结论:影响空气污染的最重要因素为太阳辐射。由于的方差较大,第一主成分主要由变量控制,所以所得结论与实际不符。
5.2样本相关矩阵主成分分析
利用标准化公式对原数据进行标准化处理得到一组新的数据:
即令
(6)
其中为的平均值,为的方差。
此时,由于的协方差矩阵即为的相关矩阵其中
(7)
为的协方差。
代入数
文档评论(0)