实证分析方法与软件2-回归分析.doc

下载文档

10
0
约4.21千字
约 9页
2017-05-29 发布于河南
举报
版权申诉
保障服务

实证分析方法与软件2-回归分析.doc

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实证分析方法与软件2-回归分析

回归分析问题的实际背景在实际研究过程中，经常会遇到这样的情况：研究者认为，一个或几个因素受到其他众多因素的影响。在这些众多因素中，有一些因素的影响很重要，而大部分因素的影响很微小。因此，可以将这种情况抽象为数学模型或其中，是有有限方差，期望为0的随机变量。现在观察到对应数据或希望根据这些数据找出f。解决这一问题可以分为两个子问题：确定f的表达式；确定表达式中的参数。一般而言，确定f的表达式依赖于专业知识、经验等，夸张的说，它不依赖数学。当无法确定f的具体表达式，但可以假设f是连续可微时。注意到即任一连续可微函数均可由线性函数近似。因此，可以将上述抽象模型具体化为此模型称为一对多的线性回归。其中的系数正是响应变量对该预测变量的偏导数。称模型为多对多的线性回归。其中，称为预测变量（外生变量），称为响应变量（内生变量）。回归分析的主要问题是如何利用观察数据估计模型的参数、讨论参数估计的性质、响应变量预测值的估计、在实际问题中任何运用回归分析的结果等。回归参数的估计模型回归参数的估计方法可采取最小二乘法或最大似然法。下面解释最小二乘估计法。一对多回归参数估计模型将观察数据代入理论模型，有其中，假设是独立同分布的随机变量，且，。引入矩阵，，，。则上述数据模型可写成矩阵模型：其中，；多对多回归参数估计模型同样，将观察数据代入理论模型，有其中，假设是独立同分布的随机变量，且，，。引入矩阵，，，。则上述数据模型同样可以写成。其中，，不相关。在此，表示某一矩阵的行向量的转置。表示某一矩阵的列向量。由此可见，若用矩阵形式，一对多回归和多对多回归的模型是一样的。为了进一步简化模型，引入人工变量，可以将回归模型表示为。在这里，X，实际上是（1，X）和。即变换后的数据矩阵仍然用同一记号表示。参数的最小二乘估计假设参数估计已知，则一次观察的响应变量的估计为误差为误差平方和为所谓最小二乘法估计就是使参数估计的误差平方和最小。因此，我们选择参数的估计应使响应变量的估计的误差平方和最小。定理：若矩阵是满秩的，即秩（）=p，则参数的估计为记，则残差为残差平方和为以及，。回归分析的最小二乘法估计的性质平方和分解上式中的三个平方和分别称为离差平方和、回归平方和、余差（残差）平方和。称比值为复相关系数。的基本性质对于线性回归模型，，，它的最小二乘估计具有下列性质： 1）是的线性估计； 2），； 3）记，则。即是的无偏估计； 4）与不相关； 5）是的最佳线性估计。上述性质常称为M-G定理。的分布性质为了进一步讨论参数估计的性质，下面增加关于响应变量分布的假设。在线性模型或，，中，假设：，或者，。性质1：的最小二乘估计也是的最大似然估计。性质2：的水平置信域是。的水平联合置信区间为。其中，是中对应的对角线元素。的水平置信区间为。回归系数的检验在实际应用中，常常需要检验某些预测变量对响应变量是否真正有重要影响。即需要做下列假设检验： H0：或者，H0：其中，。构造该假设检验统计量的基本思路：考虑下列两个线性回归模型和记它们的余差平方和分别为SS1和SS2。若SS2-SS1较大，则说明假设H0不成立。因此，只要给出该平方和之差的分布，就可以按标准程序对H0进行检验了。可以证明，。这就是检验H0的统计量。在实际建立回归模型时，最常用的变量重要性检验是检验假设 H0：此时，上述统计量可以等价地转换为一个t-分布统计量。响应变量的估计（预测）假设已建立回归模型则因为，是的线性最优无偏估计，因此，对给定的x0，是的线性最优无偏点估计，并且可以证明，其区间估计为。对于响应变量，根据回归模型，有因此，仍是y0的线性最优无偏点估计，但是，估计方差有所变化。此时，估计误差的方差为。因此，y0的区间估计为偏相关系数相关系数衡量两个变量间是否存在着较强的线性关系。若x和y的相关系数的绝对值接近于1，则x和y的回归模型将能较好地反映x和y间的关系。因此，可以用相关系数来衡量是否适合用回归模型来进行分析。然而，在多元回归分析中，当考虑某一预测变量是否应该包含在模型中时，由于预测变量之间可能存在着一定的线性相关，单纯用相关系数就不够了，需要引入偏相关系数。设有响应变量y，预测变量x1、x2、x3。假设有回归方程y=a+bx1。则y与x2关于x1的偏相关系数是y-a-bx1与x2间的相关系数。类似地，y与x3关于x1、x2的偏相关系数是y-a-bx1-bx2与x3间的相关系数。也就是说，偏相关系数是排除了其它某些变量的线性影响后的相关系数。关于“线性”性问题线性回归模型中，“线性”一词是相对于

您可能关注的文档

文档评论（0）

xxj1658888 + 关注: 实名认证

内容提供者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

更多 >

实证分析方法与软件2-回归分析.doc