- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干主成分探析大气环境预测探究
基干主成分探析大气环境预测探究 摘 要 为更好地反映长春市大气环境状况,以长春市2014年PM2.5监测数据作为主要指标进行研究分析。借助SAS统计分析软件,采取线性插值法对样本数据缺失值进行补插。鉴于各指标变量之间具有强相关性及异方差现象,不满足一般多元线性回归基本假设条件,应用极大似然法对样本数据进行Box-Cox非线性变换,并基于主成分分析理论建立回归模型,成功地消除了以上弊端。检验预测证明模型能够用以预测分析长春市未来大气环境状况.
关键词 PM2.5 线性插值 Box-Cox变换 主成分分析 预测分析
中图分类号:X823 文献标识码:A DOI:10.16400/j.cnki.kjdkz.2016.11.071
0 引言
从长春市2014年10、11、12月份月平均PM2.5浓度以及优良级天数监测结果(数据来自吉林省环境保护厅)可以看出:这三个月长春市优良级天数比例均小于50.0%,几乎整个冬季都处于连续污染状态,雾霾问题严重,再加上严寒的天气,使得市民易于感染呼吸道疾病,甚至加重比如敏感、哮喘病等类患者的病情。因此准确预测并及时公布大气环境状况变得越来越重要
近年来,专家学者开展了一些相关的研究工作。刘小生等①提出了一种基于基因表达式编程的PM2.5浓度预测研究;彭斯俊等②提出了一种基于ARIMA模型的PM2.5预测模型;陈俏等③提出了一种基于支持向量机和回归法的大气污染物浓度预测模型。这些文献通过研究个别因素对大气环境状况提出了预测方法,但是气象因素对PM2.5的影响是十分复杂的,实际情况中往往是不同气象因素相互影响的结果。尤其是ARIMA模型只突出了时间因素在预测中的作用,没有考虑到外界具体因素的影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化往往会有较大偏差
本文旨在用与PM2.5浓度相关性强的因素,综合考虑PM10、CO、NO2、SO2四项指标对PM2.5浓度的影响,并基于主成分分析理论提取几个互不相关的主成分进行回归分析,最终得到准确度较高的大气环境预测模型
1 材料与方法
1.1 数据预处理
1.1.1 补充缺失数据
本文数据来自天气后报网,共研究PM2.5、PM10、CO、NO2、SO2五项指标,个别日期(共4天)的数据缺失。这时,我们使用SAS统计分析软件,运用插值法补全缺失值
1.1.2 Box-Cox非线性变换④⑤
将原始数据中PM2.5、PM10、CO、NO2、SO2等因子依次记为、、、、,因事先由散点图分析可得,PM2.5与PM10、CO具有良好的线性关系,考虑到变换的简便性最终选定对PM2.5、PM10和CO做变换?%d的值为0,记变换后的PM2.5、PM10和CO为、和;对NO2和SO2进行Box-Cox变换的过程中,最优?%d的取值是依据最大似然估计的方法原理来确定,由SAS统计软件计算得到,最终选择NO2和SO2的最优?%d值依次为0.5、0,经过Box-Cox变换后的NO2和SO2依次用下列符号标记:和
1.2 主成分分析原理
主成分分析⑥是将多指标化为少数几个综合指标的一种统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合,且各个主成分之间互不相关。这样在研究复杂问题时就可以只考虑少数几个主成分且不止于损失太多信息,从而更容易抓住主要矛盾,解释事物内部变量之间的规律性,同时使问题得以简化,提高分析效率
2 结果
2.1 主成分分析
本过程主要通过SAS软件⑦实现,详细程序参照附件。输出结果(表1)给出了各变量之间的相关系数矩阵。可以看出:与之间的相关系数为0.8341,呈现非常强的相关性;
与,与之间的相关系数均为0.6800以上,有较强的相关性,其他变量之间相关性则相对较弱。不满足多元线性回归的基本假定条件,这也是本文选择主成分回归的主要原因之一
输出结果(表2)给出了相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率以及累计贡献率。可以看出,第一主成分的方差贡献率为71.34%,前两个主成分的累计贡献率已达87.69%,因此,只需前面两个主成分就可以概括这组数据。根据相关系数矩阵的各个特征值的特征向量,可以写出前三??主成分得分:
2.2 主成分回归
现在用对前两个主成分和做普通最小二乘回归,得到主成分回归方程为:
=3.93932+0.36567?Ha0.01363 (3)
但是斜率的t检验p值0.41230.05,未通过显著性检验,即认为与之间的线性回归关系不显著,需对模型进一步的调整
经过多次对u和主成分、、之间进行不同模型模拟对比分析,最终采用逐步回归法选取与、做最小二乘回归,输出结果
文档评论(0)