实证分析方法与软件2-回归分析.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实证分析方法与软件2-回归分析

回归分析 问题的实际背景 在实际研究过程中,经常会遇到这样的情况:研究者认为,一个或几个因素受到其他众多因素的影响。在这些众多因素中,有一些因素的影响很重要,而大部分因素的影响很微小。因此,可以将这种情况抽象为数学模型 或 其中,是有有限方差,期望为0的随机变量。 现在观察到对应数据 或 希望根据这些数据找出f。 解决这一问题可以分为两个子问题:确定f的表达式;确定表达式中的参数。 一般而言,确定f的表达式依赖于专业知识、经验等,夸张的说,它不依赖数学。 当无法确定f的具体表达式,但可以假设f是连续可微时。注意到 即任一连续可微函数均可由线性函数近似。因此,可以将上述抽象模型具体化为 此模型称为一对多的线性回归。其中的系数正是响应变量对该预测变量的偏导数。 称 模型为多对多的线性回归。其中,称为预测变量(外生变量),称为响应变量(内生变量)。 回归分析的主要问题是如何利用观察数据估计模型的参数、讨论参数估计的性质、响应变量预测值的估计、在实际问题中任何运用回归分析的结果等。 回归参数的估计模型 回归参数的估计方法可采取最小二乘法或最大似然法。下面解释最小二乘估计法。 一对多回归参数估计模型 将观察数据代入理论模型,有 其中,假设是独立同分布的随机变量,且,。 引入矩阵 ,,,。 则上述数据模型可写成矩阵模型: 其中,; 多对多回归参数估计模型 同样,将观察数据代入理论模型,有 其中,假设是独立同分布的随机变量,且,,。 引入矩阵 ,, ,。 则上述数据模型同样可以写成 。 其中,,不相关。在此,表示某一矩阵的行向量的转置。表示某一矩阵的列向量。 由此可见,若用矩阵形式,一对多回归和多对多回归的模型是一样的。 为了进一步简化模型,引入人工变量,可以将回归模型表示为 。 在这里,X,实际上是(1,X)和。即变换后的数据矩阵仍然用同一记号表示。 参数的最小二乘估计 假设参数估计已知,则一次观察的响应变量的估计为 误差为 误差平方和为 所谓最小二乘法估计就是使参数估计的误差平方和最小。因此,我们选择参数的估计应使响应变量的估计的误差平方和最小。 定理:若矩阵是满秩的,即秩()=p,则参数的估计为 记,则残差为 残差平方和为 以及,。 回归分析的最小二乘法估计的性质 平方和分解 上式中的三个平方和分别称为离差平方和、回归平方和、余差(残差)平方和。 称比值 为复相关系数。 的基本性质 对于线性回归模型,,,它的最小二乘估计具有下列性质: 1)是的线性估计; 2),; 3)记,则。即是的无偏估计; 4)与不相关; 5)是的最佳线性估计。 上述性质常称为M-G定理。 的分布性质 为了进一步讨论参数估计的性质,下面增加关于响应变量分布的假设。 在线性模型 或 ,, 中,假设:,或者,。 性质1:的最小二乘估计也是的最大似然估计。 性质2:的水平置信域是 。 的水平联合置信区间为 。 其中,是中对应的对角线元素。 的水平置信区间为 。 回归系数的检验 在实际应用中,常常需要检验某些预测变量对响应变量是否真正有重要影响。即需要做下列假设检验: H0: 或者,H0: 其中,。 构造该假设检验统计量的基本思路: 考虑下列两个线性回归模型 和 记它们的余差平方和分别为SS1和SS2。若SS2-SS1较大,则说明假设H0不成立。因此,只要给出该平方和之差的分布,就可以按标准程序对H0进行检验了。 可以证明, 。 这就是检验H0的统计量。 在实际建立回归模型时,最常用的变量重要性检验是检验假设 H0: 此时,上述统计量可以等价地转换为一个t-分布统计量。 响应变量的估计(预测) 假设已建立回归模型 则因为,是的线性最优无偏估计,因此,对给定的x0,是的线性最优无偏点估计,并且可以证明,其区间估计为 。 对于响应变量,根据回归模型,有 因此,仍是y0的线性最优无偏点估计,但是,估计方差有所变化。此时,估计误差的方差为 。 因此,y0的区间估计为 偏相关系数 相关系数衡量两个变量间是否存在着较强的线性关系。若x和y的相关系数的绝对值接近于1,则x和y的回归模型将能较好地反映x和y间的关系。因此,可以用相关系数来衡量是否适合用回归模型来进行分析。然而,在多元回归分析中,当考虑某一预测变量是否应该包含在模型中时,由于预测变量之间可能存在着一定的线性相关,单纯用相关系数就不够了,需要引入偏相关系数。 设有响应变量y,预测变量x1、x2、x3。假设有回归方程y=a+bx1。则y与x2关于x1的偏相关系数是y-a-bx1与x2间的相关系数。类似地,y与x3关于x1、x2的偏相关系数是y-a-bx1-bx2与x3间的相关系数。也就是说,偏相关系数是排除了其它某些变量的线性影响后的相关系数。 关于“线性”性问题 线性回归模型中,“线性”一词是相对于

文档评论(0)

xxj1658888 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档