- 1、本文档共62页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10章主成分分析与因子分析 主成分分析 因子分析 学习目标 1.主成分分析的基本思想 2.主成分分析的软件实现和结果分析 3.因子分析的基本思想 4.因子分析的软件实现和结果分析 主成分分析 主成分分析的原理 多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 “主成分分析”、“因子分析”都可以用来对数据进行降维。 主成分分析的基本思想 主成分分析(Principal components analysis)是由Hotelling于1933年首先提出的。 由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。 当这些变量的第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个提取的过程,……,直到提取足够多的信息为止。这就是主成分分析的思想。 主成分分析的基本思想 主成分分析适用于原有变量之间存在较高程度相关的情况。 在主成分分析适用的场合,一般可以用较少的主成分得到较多的信息量,从而得到一个更低维的向量。通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。 例:斯通关于国民经济的研究 一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。 主成分分析的几何意义 主成分分析的几何意义 主成分分析的几何意义 第一主成分的效果与椭圆的形状有关。椭圆越扁平,n个点在F1轴上的方差就相对越大,在F2轴上的方差就相对越小,用第一主成分代替所有样品造成的信息损失就越小。 主成分分析的几何意义 原始变量不相关时,主成分分析没有效果。 主成分分析的几何意义 原始变量相关程度越高,主成分分析效果越好。 主成分分析的数学模型 主成分分析的数学模型 有p个x,相应可以计算出p个主成分。但一般只使用少数几个主成分就可以提取大部分信息。 主成分分析的基本任务是计算系数矩阵a11 …… app。 主成分求解的步骤 主成分可以按以下步骤计算得出: 计算原始变量的相关系数矩阵R。 计算相关系数矩阵R的特征值,并按从大到小的顺序排列,记为 计算特征值对应的特征向量,即为主成分F1……Fp相应的系数。 主成分得分 把原始变量的值代入主成分表达式中,可以计算出主成分得分。 注意在计算主成分得分时需要先对原始变量进行标准化。 得到的主成分得分后,可以把各个主成分看作新的变量代替原始变量,从而达到降维的目的。 主成分的贡献率 对于第k个主成分,其对方差的贡献率为 前k个主成分贡献率的累计值称为累计贡献率。 主成分个数的确定 通常有两种方式: 1、根据大于1的特征值的个数确定主成分的个数; 2、根据主成分的累计贡献率确定主成分的个数,使累计贡献率85%或者其他值。 最常见的情况是主成分的个数为2-3个。 主成分分析的应用 主成分回归。即把各主成分作为新自变量代替原来自变量x做回归分析。还可以进一步还原得到Y与x的回归方程(可以避免多重共线性的问题)。 用于综合评价。 按照单个的主成分(例如第一主成分)可以对个体进行排序。 按照几个主成分得分的加权平均值对个体进行排序也是一种评价方法。一般用各个主成分的方差贡献率加权。由于加权得分缺少实际意义,这种方法理论上有争议。 主成分分析在SPSS中的实现 SPSS没有直接提供主成分分析的功能,需要借助于“因子分析”的模块实现。 用SPSS进行主成分分析有几个操作环节需要特别注意。 下面我们以讲义中应聘的例子加以说明。 主成分分析在SPSS中的实现 1、在SPSS中打开数据文件(或者录入数据)。 主成分分析在SPSS中的实现 2、选择“分析”?“降维”?“因子分析”。 3、把除了“编号”以外的变量选入“变量”框; 4、单击“描述”按钮,在弹出的对话框中选中“系数”,以输出相关系数。 其余选项使用默认值。单击“确定” 。 SPSS结果分析:相关系数表 相关系数表中有较大的相关系数,主成分分析可能有效。 特征值和贡献率 前4个特征值为7.51,2.05,1.46,1.20。 默认提取4个主成分,累计贡献率为81.49%。 因子载荷矩阵 这个表是因子分析的因子载荷矩阵,不是特征向量矩阵。 要得到特征向量,需要将各
文档评论(0)