- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3.1回归分析的基本思想和其应用初步B
〖人教版高中数学选修2—3〗
第三章 统计案例
§2.1 回归分析的基本思想及其初步应用
第2课时 残差分析
教学过程
一.回归模型
【探索1】 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
编号12345678身高/cm165165157170175165155170体重/kg4857505464614359现在的问题是:身高为172cm的女大学生的体重一定为60.316kg吗?
分析:身高为172cm的女大学生的体重不一定为60.316kg,但一般可以认为她的体重在60.316kg左右,如图,由样本点和回归直线的位置关系说明这一点.
1.回归模型
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可以用线性回归模型
来表示,这里和为模型的未知参数,是与之间的误差.
通常是随机变量,称为随机误差,它的均值,方差,这样
, ②
称为线性回归模型.
说明:⑴随机误差的方差越小,用预报真实值的精确度就越高,故随机误差是引起预报值与真实值之间存在误差的原因之一;
⑵由于、是、的估计值,它们之间也存在误差,这种误差是预报值与真实值之间存在误差的另一原因.
2.残差与残差图
【思考1】 产生随机误差的原因是什么?
分析:一个人的体重除了受身高的影响外,还受到其他许多因素的影响.例如遗传基因、饮食习惯、生长环境等因素.
事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似地表示这种关系.
【探索2】 在线性回归模型中,是用预报真实值的随机误差,它是一个不可观察的量,那么应该怎样研究随机误差呢?
分析:在实际应用中,我们用回归方程
中的估计.由于随机误差,所以是的估计量.
对于样本点
,,…,.
而言,它们的随机误差为
,.
其估计值为
,.
称为相应点的残差.
【思考2】 在实际问题中,如何发现数据中的错误?如何衡量模型的拟合效果呢?
分析:我们可以通过残差发现数据中的可疑数据,判断所建立模型的拟合效果.
下表列出了8名女大学生身高和体重的原始数据以及相应的残差数据:
编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差-6.3732.6272.419-4.6181.1376.627-2.8830.382我们可以通过图形来分析残差的特征,作图时纵坐标为残差,横坐标可以选用样本的编号,或身高数据,或体重估计值,这样作出的图形称为残差图,如图所示.
从图形可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误,如果数据采集有错误,就要予以纠正.
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
3.相关指数R2
另外,我们还可以用
来刻画回归的效果.
对于已经获取的样本数据,R2表达式中的为确定的数.因此R2越大,意味着残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.
在上例中,通过计算,得出R2=0.64,表明“女大学的身高解释了64%的的体重变化” .
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量.
(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等.
二.回归模型拟合效果分析
【例1】 下列说法错误的是 ( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.线性回归方程对应的直线 = x+至少经过其样本数据点(x1,y1),(x2,y2),…,(xn,yn)中的一个点C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
【解析】 根据相关关系的概念知A正确;
根据线性回归直线不一定过样本数据点中
文档评论(0)