- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1.主成分分析2.因子分析3.聚类分析4.相关性分析5.回归分析第六章多元统计分析
模型背景模型思想模型建立步骤主成分优缺点案例分析主成分分析第一节
一、模型背景在研究实际问题时,往往需要涉及多个变量,而通常多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复。假如直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,但同时这种代替仍可以反映原来多个变量的大部分信息。这实际上是一种降维的方法。
二、模型思想主成分分析(PCA)是一种数学降维的方法。该方法通过构造原变量的一系列线性组合形成一组新的互不相关的变量,使这些新变量尽可能多地反映原变量的信息。这里的“信息”主要由数据变量的方差反映,即方差越大,包含的信息越多。主成分分析通常运用累计方差贡献率来分析方差。简要步骤:利用输入变量构造数据矩阵,并求相关矩阵;由相关系数矩阵的特征值求得累计方差贡献率;再依据累计方差贡献率及相关系数矩阵的特征向量,选择主成分并得出表达式。
三、模型建立步骤原始数据标准化处理计算相关系数矩阵R计算特征值和特征向量选择主成分,并对各主成分所包含信息给于适当解释计算综合得分
原始数据标准化处理目的:消除变量在量纲上的的影响。假设指标变量有m个指标向量,共有n个待评价对象,记第i个评价对象的第j个指标的取值为,将各指标值转换成标准化指标,公式如下:其中提示:中心极限定理,当n较大时近似服从正态分布
2.计算相关系数矩阵R相应嗯嗯相关系数矩阵记为其中是第i个指标与第j个指标的相关系数当数据标准化后,第i个指标与第j个指标的相关系数
3.计算特征值和特征向量解特征方程 ,求得特征值 及对应的特征向量 ,其中 由特征向量和原变量组成m个新的指标变量yj。4.选择主成分,计算综合评级值主成分贡献率的定义为:某个主成分的方差占全部方差的比重,也就是某个特征值占全部特征值合计的比重。第个成分的贡献率为:其中随机变量观察数据的取值为
前个成分的累计贡献率为:各主成分的方差是递减的,包含的信息也是递减的。当接近于1时,则选择前个综合指标作为个主成分,代替原来的个指标变量。在实践中,一般要求选取主成分的累计贡献率达到85%以上。积累贡献率表示前个主成分的贡献率之和。
5.计算综合得分综合得分计算公式如下:根据每个待评价对象的综合得分值,对其进行评价。其中为第j个主成分的贡献率
例1:某河流2001年-2007年的污染物浓度如表2.1所示.要求运用主成分分析,将各年份监测值与五个类别的水质标准值进行比较以确定水质级别.高锰酸钾指数BOD石油类挥发酚砷六价铬氨氮DO20030.0020.0040.00216.620040.0030.0040.0051.35.820040.0040.0040.0071.45.420060.0060.0060.0091.6320080.020.0050.0081.73.720068.611.10.750.030.0050.0081.94.620050.0080.0060.0061.83.6表2.1该河流各指标监测值与水质级别以及综合污染指数
1、数据预处理首先将DO(溶解氧)取倒数,使其与其他指标成为同向指标,即数值越大,表示污染越严重.接着将数据标准化,得到标准化后的矩阵;2、计算相关系数矩阵利用公式得到相关系数矩阵R.
3、计算特征值和特征向量接下来计算相关系数矩阵的特征值,特征向量及主成分累积贡献率.得到8个特征值依次为5.81,2.35,0.64,0.10,,,提取主成分对应的特征值大于1的前3个主成分.4.选择主成分,计算综合评级值由此,依据公式计算主成分综合得分,结果如表2.2所示.年份2001200220032004200520062007主成分得分-2.8883-1.8464-1.13071.378321.606041.870271.01081表2.2主成分分析评价结果
?优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。?缺点:如果数据集中有极端值或变量间呈现非线性
文档评论(0)