- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析
的基本原理
主成分分析
的计算步骤
主成分分析方法应用实例
主成分分析
问题的提出
地理系统是多变量要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?
事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。
主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。
主成分分析的基本原理
在某多要素地理系统中,假定有n个样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵:
地理数据样本数n,自然是越大越好,也即数据矩阵的行数n越大越好。
地理系统的变量数p值较大时,一方面在p维空间中考察问题较为麻烦,另一方面大量变量之间可能有相关性的重复。为了克服这一困难,就需要进行降维处理。
地理系统的变量数p值应该是少而精。
主成分分析是用较少几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。
记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新的综合变量指标,则考虑每个新变量都是由原所有变量的线性加权总和所构成:
lij
如何确定这些系数lij?
系数lij的确定原则:
① zi与zj(i≠j; i, j=1,2,…,m)相互无关;
② z1是x1,x2,…,xP的一切线性组合中方差最大者;
z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;
… … … … … … … … … … … …
zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP的所有线性组合中方差最大者。
保证新变量之间彼此独立没有相关性
新变量依次分别降序排列地保留原变量所包含的信息
这样得到的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。
从数学上可以证明,载荷系数lij分别是原变量相关系数矩阵的m个较大特征根所对应的特征向量。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p)在诸主成分变量zi(i=1,2,…,m)上的荷载 lij( i=1,2,…,m; j=1,2 ,…,p)。
载荷系数lij的确定遵循两个原则
主成分分析的计算步骤
①计算相关系数矩阵
②计算特征值与特征向量
③计算主成分贡献率及累计贡献率
④计算主成分载荷
⑤各主成分的得分
数据基础
求解出待定的系数lij
确定主成分变量个数
求解主成分变量载荷系数lij
确定主成分变量的数据内容及贡献程度
①计算相关系数矩阵
rij (i, j=1,2,…,p)为原变量xi与xj的单相关系数, rij=rji,其计算公式为:
②计算特征值与特征向量
相关系数矩阵
特征根个数与相关系数矩阵的阶数一致,即原变量有p个,特征根也有p个。
p个特征根对应于p个主成分变量,与原变量个数相同,没有达到数据降维要求?
③计算主成分贡献率及累计贡献率
主成分贡献率:
主成分累计贡献率:
一方面新的主成分变量保留了超过85%的原变量信息内容;另一方面主成分个数m少于原变量个数p,达到了数据降维效果。
④计算主成分载荷系数
第i个主成分的载荷系数lij的求解:
⑤计算各主成分的得分
Z1
Z2
Zm
主成分分析方法应用实例
对下表的某农业生态经济系统的统计数据进行主成分分析:
解:
(1)将原数据表中的变量统计数据作标准差标准化处理,然后将它们代入公式单相关系数公式中来计算,得出9个变量的9×9相关系数矩阵:
(2)由相关系数矩阵R构成的特征方程,计算其对应的特征值,按照特征根的数值大小进行降序排序,在此基础上计算各个主成分的贡献率与累计贡献率:
第3主成分的累计贡献率已高达86.596%(大于85%),即第1、2、3主成分已可代表原变量的86.596%的信息内容。因此,只需要求出第1、第2、第3主成分z1,z2,z3即可。
(3)对于选择的3个主成分的3个特征值λ1=4.6610,λ2=2.0890,λ3=1.0430,分别求出其特征向量e1,e2,e3,再用公式
计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷lij :
第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。
第2主成分z
文档评论(0)