- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(一)主成分分析的几何解释 (二)主成分分析的基本思想 (一)计算相关系数矩阵 (二)计算特征值与特征向量 (三)计算主成分贡献率及累计贡献率 (四)计算主成分载荷 (一)因子分析法概述 因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合。而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。因此因子分析法是主成分分析法的发展。 (二)因子分析法的模型 狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。 其步骤为: 将原始数据标准化→求标准化数据的相关矩阵→求相关矩阵的特征值和特征向量→计算方差贡献率与累计方差贡献率→确定因子→因子旋转→用原始的线性组合求各因子得分→求综合得分→得分排序 因子模型的表达式为: 其矩阵形式为: 其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。 F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。 主成分分析法与因子分析法 主要内容 主成分分析法 因子分析法 附:主成分分析法与因子分析法的区别 主成分分析法(Principal Components Analysis,PCA) 主成分分析法概述 主成分分析的基本原理 主成分分析的计算步骤 一、主成分分析概述 假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 引子 当然不能。汇报什么? 发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。 主成分分析法( Principal Components Analysis )和因子分析法(Factor Analysis)就是把变量维数降低以便于描述、理解和分析的方法。 主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标) ,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。 这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量,只是几个指标的综合。 在引入主成分分析之前,先看下面的例子。 什么是主成分分析法? 成绩数据 53个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。 从本例可能提出的问题 能不能把这个数据表中的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 事实上,以上问题在平时的研究中,也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。 比如对n个样本进行综合评价,可选的描述样本特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对样本影响较大的指标,影响结果的可靠性。 这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分样本间差异的目的。 二、主成分分析的基本原理 (一)主成分分析的几何解释 例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,语文成绩(x1)和数学成绩(x2),分别由横坐标和纵坐标所代表; 每个学生都是二维坐标系中的一个点。 因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化。为了实现样本数据的标准化,应求样本数据的平均和方差。对数据矩阵Y作标准化处理,即对每一个指标分量作标准化变换,变换公式为: 其中, 样本均值: 样本标准差: 原始变量 经规格化后变为新变量 ,其均值为零,方差为1。 对二维空间来讲n
文档评论(0)