- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实证分析方法与软件2-回归分析
回归分析
问题的实际背景
在实际研究过程中,经常会遇到这样的情况:研究者认为,一个或几个因素受到其他众多因素的影响。在这些众多因素中,有一些因素的影响很重要,而大部分因素的影响很微小。因此,可以将这种情况抽象为数学模型
或
其中,是有有限方差,期望为0的随机变量。
现在观察到对应数据
或
希望根据这些数据找出f。
解决这一问题可以分为两个子问题:确定f的表达式;确定表达式中的参数。
一般而言,确定f的表达式依赖于专业知识、经验等,夸张的说,它不依赖数学。
当无法确定f的具体表达式,但可以假设f是连续可微时。注意到
即任一连续可微函数均可由线性函数近似。因此,可以将上述抽象模型具体化为
此模型称为一对多的线性回归。其中的系数正是响应变量对该预测变量的偏导数。
称
模型为多对多的线性回归。其中,称为预测变量(外生变量),称为响应变量(内生变量)。
回归分析的主要问题是如何利用观察数据估计模型的参数、讨论参数估计的性质、响应变量预测值的估计、在实际问题中任何运用回归分析的结果等。
回归参数的估计模型
回归参数的估计方法可采取最小二乘法或最大似然法。下面解释最小二乘估计法。
一对多回归参数估计模型
将观察数据代入理论模型,有
其中,假设是独立同分布的随机变量,且,。
引入矩阵
,,,。
则上述数据模型可写成矩阵模型:
其中,;
多对多回归参数估计模型
同样,将观察数据代入理论模型,有
其中,假设是独立同分布的随机变量,且,,。
引入矩阵
,,
,。
则上述数据模型同样可以写成
。
其中,,不相关。在此,表示某一矩阵的行向量的转置。表示某一矩阵的列向量。
由此可见,若用矩阵形式,一对多回归和多对多回归的模型是一样的。
为了进一步简化模型,引入人工变量,可以将回归模型表示为
。
在这里,X,实际上是(1,X)和。即变换后的数据矩阵仍然用同一记号表示。
参数的最小二乘估计
假设参数估计已知,则一次观察的响应变量的估计为
误差为
误差平方和为
所谓最小二乘法估计就是使参数估计的误差平方和最小。因此,我们选择参数的估计应使响应变量的估计的误差平方和最小。
定理:若矩阵是满秩的,即秩()=p,则参数的估计为
记,则残差为
残差平方和为
以及,。
回归分析的最小二乘法估计的性质
平方和分解
上式中的三个平方和分别称为离差平方和、回归平方和、余差(残差)平方和。
称比值
为复相关系数。
的基本性质
对于线性回归模型,,,它的最小二乘估计具有下列性质:
1)是的线性估计;
2),;
3)记,则。即是的无偏估计;
4)与不相关;
5)是的最佳线性估计。
上述性质常称为M-G定理。
的分布性质
为了进一步讨论参数估计的性质,下面增加关于响应变量分布的假设。
在线性模型
或
,,
中,假设:,或者,。
性质1:的最小二乘估计也是的最大似然估计。
性质2:的水平置信域是
。
的水平联合置信区间为
。
其中,是中对应的对角线元素。
的水平置信区间为
。
回归系数的检验
在实际应用中,常常需要检验某些预测变量对响应变量是否真正有重要影响。即需要做下列假设检验:
H0: 或者,H0:
其中,。
构造该假设检验统计量的基本思路:
考虑下列两个线性回归模型
和
记它们的余差平方和分别为SS1和SS2。若SS2-SS1较大,则说明假设H0不成立。因此,只要给出该平方和之差的分布,就可以按标准程序对H0进行检验了。
可以证明,
。
这就是检验H0的统计量。
在实际建立回归模型时,最常用的变量重要性检验是检验假设
H0:
此时,上述统计量可以等价地转换为一个t-分布统计量。
响应变量的估计(预测)
假设已建立回归模型
则因为,是的线性最优无偏估计,因此,对给定的x0,是的线性最优无偏点估计,并且可以证明,其区间估计为
。
对于响应变量,根据回归模型,有
因此,仍是y0的线性最优无偏点估计,但是,估计方差有所变化。此时,估计误差的方差为
。
因此,y0的区间估计为
偏相关系数
相关系数衡量两个变量间是否存在着较强的线性关系。若x和y的相关系数的绝对值接近于1,则x和y的回归模型将能较好地反映x和y间的关系。因此,可以用相关系数来衡量是否适合用回归模型来进行分析。然而,在多元回归分析中,当考虑某一预测变量是否应该包含在模型中时,由于预测变量之间可能存在着一定的线性相关,单纯用相关系数就不够了,需要引入偏相关系数。
设有响应变量y,预测变量x1、x2、x3。假设有回归方程y=a+bx1。则y与x2关于x1的偏相关系数是y-a-bx1与x2间的相关系数。类似地,y与x3关于x1、x2的偏相关系数是y-a-bx1-bx2与x3间的相关系数。也就是说,偏相关系数是排除了其它某些变量的线性影响后的相关系数。
关于“线性”性问题
线性回归模型中,“线性”一词是相对于
您可能关注的文档
- 中小型LNG储罐的高真空多层绝热结构及影响因素.pdf
- 4 正极材料锰酸锂中锰的价态分析.pdf
- MRD结构的动力反应分析.pdf
- 锂离子电池正极材料LiFePO4合成方法综述.pdf
- 选修4第一章单元测试题2.doc
- 聚苯胺在LiFePO_4_C正极中的双重功能.pdf
- Cu_2O及Au_Cu_2O核壳_省略_的制备_微观结构和生长机理的研究_刘雪华.pdf
- 2013年 专题复习 化学反应与能量转化 (二).doc
- EN 55014-1+A2:2011摘要.pdf
- 聚1_5_二氨基蒽醌二次锂电池正极材料研究.pdf
- 第12课 大一统王朝的巩固 课件(20张ppt).pptx
- 第17课 君主立宪制的英国 课件.pptx
- 第6课 戊戌变法 课件(22张ppt).pptx
- 第三章 物态变化 第2节_熔化和凝固_课件 (共46张ppt) 人教版(2024) 八年级上册.pptx
- 第三章 物态变化 第5节_跨学科实践:探索厨房中的物态变化问题_课件 (共28张ppt) 人教版(2024) 八年级上册.pptx
- 2025年山东省中考英语一轮复习外研版九年级上册.教材核心考点精讲精练(61页,含答案).docx
- 2025年山东省中考英语一轮复习(鲁教版)教材核心讲练六年级上册(24页,含答案).docx
- 第12课近代战争与西方文化的扩张 课件(共48张ppt)1.pptx
- 第11课 西汉建立和“文景之治” 课件(共17张ppt)1.pptx
- 唱歌 跳绳课件(共15张ppt内嵌音频)人音版(简谱)(2024)音乐一年级上册第三单元 快乐的一天1.pptx
文档评论(0)