- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元统计分析中的降维方法在四川省社会福利中的应用
由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。
多元统计分析方法中降维的方法
1.概述
多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。
在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。
2 主成分分析
2.1主成分分析的基本思想
在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下,将原来众多具有一定线性相关性的个指标压缩成少数几个互不相关的综合指标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的维度,从而简化指标的结构,深刻反映问题的内在规律。
2.2 主成分分析的数学模型
设对某一事物的研究涉及指标(变量):,,这项指标构成维的随机向量,其均值和协方差矩阵分别是,。
对进行线性变换,原来的变量的线性组合可以形成新的综合变量,用表示,满足:
矩阵表示为:,其中
,,
由于不同的线性变换得到的综合变量的统计特性不同,为了达到较好的效果,我们希望的方差尽可能大且新的综合变量之间相互独立。由以下原则来确定新的综合变量:
(1) ;
(2)与相互独立,即无重复信息 ;
(3)是的一切线性组合(系数满足上述方程组)中方差最大的,是与不相关的的一切线性组合中方差最大的,与都不相关的的一切线性组合中方差最大的。
在实际应用时,通常挑选前几个方差比较大的主成分,虽然这样做会丢失一部分信息,但它使我们抓住了主要矛盾进行深入分析,并从原始数据中进一步提出了某些新的信息,因而在某些实际问题的研究中得益比较大,这种既减少了变量的个数又抓住了主要矛盾的做法有利于问题的分析和处理。
2.3 总体主成分的导出及性质
在实际求解主成分时,常常是从原始变量的协方差矩阵或相关矩阵的结构出发,而从两个出发点求解出的主成分不同。
2.3.1 从协方差矩阵出发求解主成分
性质1:设矩阵,将的特征值依大小顺序排列,不妨设,为矩阵各特征值对应的标准正交特征向量,则对任意向量有,
性质2:设随机向量的协方差矩阵为,为的特征值,为矩阵各特征值对应的标准正交向量,则第个主成分为: ,此时 ,。
由以上性质,我们把原始变量的协方差矩阵的非零特征值对应的标准化特征向量分别作为系数向量,即,,……,分别为的第一主成分、第二主成分,……,第主成分的充要条件是:
(1),,即为阶正交阵;
(2)的分量之间相互独立;
(3)的个分量方差依次递减。
于是随机向量与随机向量之间存在关系式:
由于在无论的各特征值是否存在相等的情况,对应的标准化特征向量总是存在,所以总是可以找到对应的各特征值的相互正交的特征向量。故将主成分的求解转换为求解原
文档评论(0)