- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
回归分析的基本念
回归分析的基本概念
????现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:
1. 确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R与圆的面积S之间就存在确定的函数关系:;
2. 非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系.
值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.
具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析.它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值.如用年龄估计血压.
设是可以精确测量或控制的非随机变量,是随机变量,的变化将使发生相应的变化,但它们之间的变化关系是不确定的,若对于的任一可能值x,相应服从一定的概率分布,则称随机变量与变量存在相关关系.
进行n次独立试验,得试验数据
…
…
其中及分别是变量及随机变量在第i次试验中的观测值,常把点(,)画在直角坐标平面上,得散点图(图1). 显然,散点图不能很好地表示与之间的相关关系,问题是如何根据这些观测值,找出能表达与之间相关关系的最佳形式.
????
由于的随机性,对于的每一确定值x,有它的分布,从而它的数学期望(若存在的话)也随取确定值而确定,而数学期望能反映随机变量所取数值的集中位置,因此,取=x时的数学期望作为=x时的估计值比较合理,即.
显然,是x的函数,记为,称为关于的回归函数,称为关于的回归方程.回归方程反映出的数学期望随的变化而变化的规律,近似地描述了与之间的相关关系.
然而,要完全确定回归函数却很困难,回归分析的基本内容是估计,散点图可以帮助我们粗略地了解用什么形式的函数估计随机变量的数学期望要好些,所研究问题的物理背景也可帮助我们确定函数的类型.在确定了函数的类型后,可设.
其中为未知参数,余下的问题就是利用试验数据,依照一定的准则选择参数的估计值,使方程 .
在一定的意义下最佳地表现与之间的相关关系.而所谓的准则就是将要讨论的最小二乘法.
最小二乘法
设随机变量关于变量的回归方程为.
用最小二乘法估计参数,就是要选择参数,使的观测值与相应函数值的离差平方和达到最小.下面讨论最小二乘法的概率意义.
设当变量取任意实数x时,随机变量服从正态分布,即的概率密度.
其中数学期望,而方差是不依赖于x的常数,设在n次独立试验中得到观测值(,),其中服从正态分布,
则用极大似然法估计参数时的似然函数为
????
为使似然函数取得最大值,应使上式指数中的平方和
?????
取最小值,即为了使观测值(,)出现的可能性最大,应选择参数,使的观测值与相应函数值的离差平方和达到最小.
分别求
对的偏导数,并令它们等于零,得方程组
??
解上面的方程组,求出参数的估计值,即可得到回归方程.
然而,一般来说,解上面的方程组是很困难的,仅当函数是参数的线性函数时,才比较容易求出参数的估计值.这是下节将要讨论的线性回归方程问题.
线性回归方程
变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点(,)将散布在某一直线周围,因此,可以认为关于的回归函数的类型为线性函数,即,下面用最小二乘法估计参数、b,设服从正态分布,分别求对、b的偏导数,并令它们等于零,得方程组
??????????
??解得??????
??其中??,
?????
?????
??且为观测值的样本方差.
线性方程称为关于的线性回归方程,称为回归系数,对应的直线称为回归直线.顺便指出,将来还需用到,其中为观测值的样本方差.
值得注意的是,关于的计算可以利用具有统计计算功能的电子计算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据(,)逐对存入计算器中,则可直接算出及的值.例1 某商场一年内每月的销售收入(万元)与销售费用(万元)统计如下表
187.1
25.4
239.4
32.4
242.0
27.8
179.5
22.8
217.8
24.4
251.9
34.2
157.0
20.6
227.1
29.3
230.0
29.2
197.0
21.8
233.4
27.9
271.8
30.0
求销售费用关于销售收入的线性回归方程.
解:计算得,,,
????
所以 ??
???
所求线性回归方程为
散点图及回归直线如图2所示.
相关系数的显著性检验
现在讨论线性相关的显著性检验中
文档评论(0)