基于主成分分析的各省人均全年消费性支出参考.doc

基于主成分分析的各省人均全年消费性支出参考.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于主成分分析的各省人均全年消费性支出参考

中北大学 实验报告 课 程 名: 数据分析 任课教师: 专 业: 数学与应用数学 学 号: 姓 名: 2014/2015学年 第2学期 中北大学 理学院 各省人均全年消费性支出 摘要 改革开放以来,随着经济的高速发展,我国经济取得了举世瞩目的较快增长,中国居民人均消费水平也有所提高。但是全国各地的人均消费存在较大差异,各地的人均消费水平直接反映了该地区的经济发展水平。针对这个问题我们找到一组我国其中的31个省、市和自治区的城镇居民家庭平均每人全年消费性支出的数据,并运用主成分分析法对这些数据进行了分析,以了解各地区的经济发展水平。 关键词:人均消费,经济发展,主成分分析,因子分析 1 引言 全国各地人均消费水平的统计至少应该有两方面的意义。其一,是真实反映各地老百姓的生活水平;其二,了解各地区的经济发展水平,为相关部门制定政策作参考价值。主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量(即原始变量线性组合)来解释多变量的方差——协方差结构。具体地说,是导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间不相关。主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地解释事物内在的规律。 2 基于主成份分析的各地人均消费水平的情况 主成分的数学模型一般为假设有n个样本,每个样本测得p项指标(pn)。由于这p项指标之间往往具有相关关系,且每个样本各指标取值的单位和数量大小不同,使我们较难利用这p项指标的信息区别这n个样本。因此,如何从这p项指标中找出少数几个综合指标,使它们尽可能多地反应各项指标的信息,而且彼此之间不相关,这就成为一个重要的问题。怎么解决这个问题,主成分分析给出了最好的方法。 (1) 如果记原来的变量指标为,它们的综合指标——新变量指标为,(m≤p)。则 在(2)式中,系数lij由下列原则来决定: (1)与(i≠j;i,j=1,2,…,m)相互无关; (2)是的一切线性组合中方差最大者;是与不相关的的所有线性组合中方差最大者;……;是与都不相关的的所有线性组合中方差最大者。 这样决定的新变量指标分别称为原变量指标的第一,第二,…,第m主成分。其中,在总方差中占的比例最大,的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以看出,找主成分就是确定原来变量xj(j=1,2,…,p)在诸主成分(i=1,2,…,m)上的载荷(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。 在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息,有以下几点原则: (1)主成分的累积贡献率:一般来说,提取主成份的累计贡献率达到80%~85%以上就比较满意了,可以此确定提取多少个主成分。 (2)特征根:特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此一般可以用特征根大于1作为纳入标准。 (3)综合判断:大量的实践表明,如果根据累积贡献率确定主成分个数往往较多,而用特征根确定又往往偏低,许多时候应该将二者结合起来,以综合确定合适的数量。 在实际操作中,主成分分析主要是按照如下的步骤来对实际问题进行分析的: 第一步:对原p个指标n×p个原始变量标准化。目的是为了消除变量之间在数量级上或量纲上不用而产生的影响,以使每个变量的均值为0,方差为1。变量标准化的公式为: (3) 其中和分别是第i个变量的平均值和标准差; 第二步,根据标准化矩阵求出协方差矩阵; 第三步,求出协方差矩阵的特征根 第四步,确定主成分,结合专业知识给出各主成分所蕴含的信息,给予恰当的解释,并利用它们来判断样本的特性。 主成分分析就是设法将原来众多的具有一定相关性的指标,重新组合成一组新相互无关的综合指标来代替原来指标(比如p个指标)。通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢? 如果将选取的第一个线性自合即第一个综合指标为,自然希望尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用的方差来表达,即Var()越大,表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来p个指标的信息

文档评论(0)

feixiang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档