主成分分析原理及详解..doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析原理及详解.

第14章 主成分分析 1 概述 1.1 基本概念 1.1.1 定义 主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。 1.1.2 举例 为什么叫主成分,下面通过一个例子来说明。 假定有N 个儿童的两个指标x1与x2,如身高和体重。x1与x2有显著的相关性。当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2,于是这N个点在新坐标轴上的坐标位置发生了改变;同时这N个点的性质也发生了改变,他们之间的关系不再是相关的。很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z1反映了原始数据信息的80%,则Z2只反映总信息的20%。这样新指标Z1称为原指标的第一主成分,Z2称为原指标的第二主成分。所以如果要研究N个对象的变异,可以只考虑Z1这一个指标代替原来的两个指标(x1与x2),这种做法符合PCA提出的基本要求,即减少指标的个数,又不损失或少损失原来指标提供的信息。 1.1.3 函数公式 通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。 Z1=l11x1+ l12x2 Z2=l21x1+ l22x2 即新指标Z1和Z2是原指标x1与x2的线性函数。在统计学上称为第一主成分和第二主成分。 若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。 通过旋转和改变原点(坐标0点),就可以得到第一主成分、第二主成分和第三主成分。如果第二主成分和第三主成分与第一主成高度相关,或者说第二主成分和第三主成分相对于第一主成分来说变异很小,即N个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中3个变量的基本特征。 1.2 PCA满足条件 1.2.1 一般条件 一般来说,N个对象观察p个指标,可以得到N*p个数据(矩阵)。 只要p个指标之间存在有相关关系,就可以通过数学的方法找到一组新的指标,它们需要满足的条件如下。 Z i是原指标的线性函数,且它们相互垂直; 各个Z i互不相关; 各个Z i加起来提供原指标所含的全部的信息,且Z1提供信息最多,Z2次之,依次类推。 1.2.2 PCA的一般步骤 输入或打开数据文件; 数据进行标准化处理; 计算矩阵的相关系数; 求相关矩阵的特征根λ1、λ2、λ3,并将它们按大小排序。 求特征向量和各主成分; 计算各主成分的贡献率; 解释各主成分的含义 上述的步骤大部分由SPSS执行,用户需要选择观测对象、选择变量,收集数据,将数据输入SPSS程序,最后选择需要多少个主成分,解释各主成分的实际意义。 1.3 SPSS运行主要选择项 1.3.1 操作步骤 Analyzes/data reduction/factor/open factor analyzes/对话框,主要有5个对话框,下面简要介绍。 因子分析主对话框。主要用来选择变量、选择输出结果内容和多少、选择PCA有关数学处理如是否旋转,提取多少个因子数,是否保存各个因子得分等。 Factor Analysis:因子分析; Descriptive:描述性统计选项; Extraction:提取因子选项; Rotation:旋转选择; Scores:因子得分选项; Option:其它选项。 1.3.2 主对话框 1.3.3 Descriptive对话框 Statistics:统计数据 Univariate descriptive:单变量描述性统计; Initial solution:初始解的统计量。 Correlation matrix:相关矩阵 Coeffcients:相关系数矩阵。 Inverse:相关系数矩阵逆矩阵。 Significance levels:相关系数显著性水平。 Reproduced:再生相关矩阵。给出因子分析后的相关矩阵。 1.3.4 Extraction method 提取公因子方法 Method:方法 Principal components analyze:主成分分析 Unweight least squares:未加权最小二乘法 Generalized least squares:广义最小二乘法 Analysis:分析 Coeffcients matrix:相关系数矩阵。 Covariance matrix:协方差矩阵。 Display:显示 Unrotated factor solution:非旋转因子解。 Screen plot of the e

文档评论(0)

kakaxi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档