R语言学习系列32-回归分析.doc

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
. . 27. 回归分析 回归分析是研究一个或多个变量(因变量)与另一些变量(自变量)之间关系的统计方法。主要思想是用最小二乘法原理拟合因变量与自变量间的最佳回归模型(得到确定的表达式关系)。其作用是对因变量做解释、控制、或预测。 回归与拟合的区别: 拟合侧重于调整曲线的参数,使得与数据相符;而回归重在研究两个变量或多个变量之间的关系。它可以用拟合的手法来研究两个变量的关系,以及出现的误差。 回归分析的步骤: (1)获取自变量和因变量的观测值; (2)绘制散点图,并对异常数据做修正; (3)写出带未知参数的回归方程; (4)确定回归方程中参数值; (5)假设检验,判断回归方程的拟合优度; (6)进行解释、控制、或预测。 (一)一元线性回归 一、原理概述 1. 一元线性回归模型: Y=??0+??1X+ε 其中 X是自变量,Y是因变量,??0,??1是待求的未知参数,??0也称为截距;ε是随机误差项,也称为残差,通常要求ε满足: ① ε的均值为0; ② ε的方差为??2; ③ 协方差COV(εi, εj)=0,当i≠j时。即对所有的i≠j, εi与εj 互不相关。 用最小二乘法原理,得到最佳拟合效果的值: , 2.模型检验 (1) 拟合优度检验 计算R2,反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好。通常可以认为当R2大于0.9时,所得到的回归直线拟合得较好,而当R2小于0.5时,所得到的回归直线很难说明变量之间的依赖关系。 (2) 回归方程参数的检验 回归方程反应了因变量Y随自变量X变化而变化的规律,若??1=0,则Y不随X变化,此时回归方程无意义。所以,要做如下假设检验: H0: ??1=0, H1: ??1≠0; ① F检验 若??1=0为真,则回归平方和RSS与残差平方和ESS/(N-2)都是??2的无偏估计,因而采用F统计量: 来检验原假设β1=0是否为真。 ② T检验 对H0: ??1=0的T检验与F检验是等价的(t2=F)。 3. 用回归方程做预测 得到回归方程后,预测X=x0处的Y值. 的预测区间为: 其中tα/2的自由度为N-2. 二、R语言实现 使用lm()函数实现,基本格式为: lm(formula, data, subset, weights, na.action, method=qr, ...) 其中,formula为要拟合的回归模型的形式,一元线性回归的格式为:y~x,y表示因变量,x表示自变量,若不想包含截距项,使用y~x-1; data为数据框或列表; subset选取部分子集; weights取NULL时表示最小二乘法拟合,若取值为权重向量,则用加权最小二乘法; na.action设定是否忽略缺失值; method指定拟合的方法,目前只支持“qr”(QR分解),method=“model.frame”返回模型框架。 三、实例 例1 现有埃及卡拉马村庄每月记录儿童身高的数据,做一元线性回归。 datas-data.frame(age=18:29,height=c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8,83.5)) datas age height 1 18 76.1 2 19 77.0 3 20 78.1 4 21 78.2 5 22 78.8 6 23 79.7 7 24 79.9 8 25 81.1 9 26 81.2 10 27 81.8 11 28 82.8 12 29 83.5 plot(datas) #绘制散点图 res.reg-lm(height~age,datas) #做一元线性回归 summary(res.reg) #输出模型的汇总结果 Residuals: Min 1Q Median 3Q Max -0.27238 -0.24248 -0.02762 0.16014 0.47238 Coefficients: Estimate Std.Error t value Pr(|t|) (Intercept) 64.9283 0.5084 127.71 2e-16 *** age 0.6350 0.0214 29.66 4.43e-11 *** --- Signif.codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘

文档评论(0)

ygxt89 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档