- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计回归完成.doc
统计回归
一、一元线性回归
回归分析中最简单的形式是,均为标量,为回归系数,称一元线性回归。这里不多做介绍,在线性回归中以介绍多元线性回归分析为主。
二、多元线性回归(regress)
多元线性回归是由一元线性回归推广而来的,把自然推广为多元变量。
(1)
,或者更一般地
(2)
其中,是已知函数。这里对回归系数是线性的,称为多元线性回归。不难看出,对自变量作变量代换,就可将(2)化为(1)的形式,所以下面以(1)为多元线性回归的标准型。
1.1 模型
在回归分析中自变量是影响因变量的主要因素,是人们能控制或能观察的,而还受到随机因素的干扰,可以合理地假设这种干扰服从零均值的正态分布,于是模型记作
(3)
其中未知。现得到个独立观测数据,,由(3)得
(4)
记
, (5)
,
(4)表示为
(6)
1.2 参数估计
用最小二乘法估计模型(3)中的参数。
由(4)式这组数据的误差平方和为
(7)
求使最小,得到的最小二乘估计,记作,可以推出
(8)
将代回原模型得到的估计值
(9)
而这组数据的拟合值为,拟合误差称为残差,可作为随机误差的估计,而
(10)
为残差平方和(或剩余平方和),即。
1.3 统计分析
不加证明地给出以下结果:
(i)是的线性无偏最小方差估计。指的是是的线性函数;的期望等于;在的线性无偏估计中,的方差最小。
(ii)服从正态分布
(11)
(iii)对残差平方和,,且
(12)
由此得到的无偏估计
(13)
是剩余方差(残差的方差),称为剩余标准差。
(iv)对总平方和进行分解,有
, (14)
其中是由(10)定义的残差平方和,反映随机误差对的影响,称为回归平方和,反映自变量对的影响。
1.4 回归模型的假设检验
因变量与自变量之间是否存在如模型(1)所示的线性关系是需要检验的,显然,如果所有的 都很小,与的线性关系就不明显,所以可令原假设为
当成立时由分解式(14)定义的满足
(15)
在显著性水平下有分位数,若,接受;否则,拒绝。
注意 拒绝只说明与的线性关系不明显,可能存在非线性关系,如平方关系。
还有一些衡量与相关程度的指标,如用回归平方和在总平方和中的比值定义
(16)
称为相关系数,越大,与相关关系越密切,通常,大于0.8(或0.9)才认为相关关系成立。
1.5 回归系数的假设检验和区间估计
当上面的被拒绝时,不全为零,但是不排除其中若干个等于零。所以应进一步作如下个检验:
由(11)式,,是对角线上的元素,用代替,由(11)~(13)式,当成立时
(17)
对给定的,若,接受;否则,拒绝。
(17)式也可用于对作区间估计(),在置信水平下,的置信区间为
(18)
其中。
1.6 利用回归模型进行预测
当回归模型和系数通过检验后,可由给定的预测,是随机的,显然其预测值(点估计)为
(19)
给定可以算出的预测区间(区间估计),结果较复杂,但当较大且接近平均值时,的预测区间可简化为
(20)
其中是标准正态分布的分位数。
对的区间估计方法可用于给出已知数据残差的置信区间,服从均值为零的正态分布,所以若某个的置信区间不包含零点,则认为这个数据是异常的,可予以剔除。
1.7 Matlab实现
Matlab统计工具箱用命令regress实现多元线性回归,Y,X为按(5)式排列的数据,b为回归系数估计值。
[b,bint,r,rint,stats]=regress(Y,X,alpha)
这里Y,X同上,alpha为显著性水平(缺省时设定为0.05),b,bint为回归系数估计值和它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统计量,有三个数值,第一个是(见(16)式),第二个是(见(15)式),第3个是与对应的概率,拒绝,
文档评论(0)