- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 主成分分析 引例1:某地区企业经济效益的评价,涉及以下9个指标:百元固定资产原值实现产值、百元固定资产原值实现利税,百元资金实现利税,百元工业总产值实现利税,百元销售收入实现利税,每吨标准煤实现工业产值,每千瓦时电力实现工业产值,全员劳动生产率,百元流动资金实现产值。 可以找出综合指标Y1、Y2等来评价企业效益。其中Yi是所有原始变量的线性组合。 引例2: 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入Y1、总收入变化率Y2和经济发展或衰退的趋势Y3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率ΔI以及时间t因素做相关分析,得到下表: 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。 主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。 很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。 要讨论的问题是: (1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 (2) 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 (3)如何解释主成分所包含的经济意义。 设随机变量X= ,均值为μ,协方差为∑。 对X进行线性变换,可以形成新的综合变量,用Y表示 主成分与原始变量之间有如下基本关系: 每一主成分都是各原始变量的线性组合 主成分的数目大大少于原始变量的数目 主成分保留了原始变量绝大多数的信息 各主成分之间互不相关 如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转θ角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。 主成分的推导及性质 设 其中, 求主成分就是寻找X的线性函数u’X使相应的方差最大, 即使 最大,且 。 (二)第二主成分 1、期望 2、方差 性质1,Y的协方差阵是对角阵 性质2, 我们进行主成分分析的目的之一是希望用尽可能少的主成分Y1,Y2,…,Yk(k≤p)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率≥80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。 性质3, 5、原始变量被主成分的提取率 前面我们讨论了主成分的贡献率和累计贡献率,他度量了Y1,Y2,……,Ym分别从原始变量X1,X2,……XP中提取了多少信息。 那么X1,X2,……XP各有多少信息分别Y1,Y2,……,Ym被提取了。应该用什么指标来度量?我们考虑到当讨论Y1分别与X1,X2,……XP的关系时,可以讨论Y1分别与X1,X2,……XP的相关系数,但是由于相关系数有正有负,所以只有考虑相关系数的平方。 性质4, 第4节 样本主成分的导出 由相关阵R出发求解主成分: 根据总体主成分的定义,主成分Y的协方差是: 假定资料矩阵为已标准化的数据矩阵,则可由相关矩阵代替协方差矩阵,于是上式可表示为: 主成分分析的相关问题 1.数据是否标准化 对度量单位不同的指标或取值范围彼此差异非常大的指标,应考虑先将数据标准化,再由其协方差阵出发进行主成分分析。 (这相当于从原始变量的相关阵出发求主成分) 对同度量或是取值范围在同量级的数据,可直接从未标准化数据的协方阵求主成分。 2.主成分分析不要求数据来自正态总体 主成分分析是对矩阵结构(协方差阵或相关阵)的分析,主要用到矩阵运算、矩阵对角化和矩阵谱分解技术。未涉及总体分布问题。 3.主成分分析对重叠信息的剔除是无能为力的 主成分分析对原始变量的重叠信息无法剔除,这就要求在选取初始变量时要避免选取有过多存在重叠信息的变量,对高度多重共线性的变量要注意其主成分分析结果。 当然,主成
文档评论(0)