[数学]5-2多元线性回归.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[数学]5-2多元线性回归

多元回归模型与回归方程 多元回归模型 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项 ? 的方程,称为多元回归模型 涉及 k 个自变量的多元回归模型可表示为 多元回归模型 (基本假定) 误差项ε是一个期望值为0的随机变量,即E(?)=0 对于自变量x1,x2,…,xk的所有值,?的方差 ? 2 都相同 误差项ε是一个服从正态分布的随机变量,即ε~N(0,?2),且相互独立 多元回归方程 描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,…,xk 的方程 多元线性回归方程的形式为 E( y ) = ?0+ ?1 x1 + ?2 x2 +…+ ?k xk 二元回归方程的直观解释 估计的多元回归方程 估计的多元回归的方程 用样本统计量 估计回归方程中的 参数 时得到的方程 一般形式为 参数的最小二乘估计 参数的最小二乘法 正规方程 (The Normal Equations ) 参数估计结果: 多重判定系数 多重判定系数 离差平方和分解: SST: 总平方和 自由度为 n-1 SSR: 回归平方和 自由度为 k SSE: 残差平方和 自由度为 n-k-1 多重判定系数(Coefficient of Multiple Determination) 问题:多重判定系数是否越大越好? 当增加变量个数,而样本容量过小时,会出现过度拟和现象。 调整的测定系数(Adjusted Coefficient of Determination) 估计标准误差 Sy 对误差项 ? 的标准差? 的一个估计值 衡量多元回归方程的拟合优度 计算公式为 线性关系检验 线性关系检验 提出假设 H0:?1??2????k=0 线性关系不显著 H1:?1,?2,? ?k 至少有一个不等于0 回归系数检验和推断 回归系数的检验 (步骤) 提出假设 H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi ? 0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t 回归系数的推断 (置信区间) ?回归系数在(1-?)%置信水平下的置信区间为 多重共线性及其产生的问题 多重共线性 回归模型中两个或两个以上的自变量彼此相关 多重共线性带来的问题有 可能会使回归的结果造成混乱,甚至会把分析引入歧途 可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反 多重共线性的识别 多重共线性 (例题分析) 【例】判别各自变量之间是否存在多重共线性 多重共线性问题的处理 多重共线性问题:变量筛选 1.向后筛选法 (Backward Elimination) 1)起始:所有自变量X1 ~ Xk 均包含 在模型中; 如果 t-test都显著,则X1 ~ Xk 均包含在模型中; 如果 存在若干 t-test不通过的参数,则先把 tj 值最小的变量删除。 2)对剩余的(k-1) 个变量做回归方程, 删除t-test不通过中,t 值最小的变量; 3)重复以上步骤。直到模型中所以变量均通过 t-test。 3. Stepwise Regression(逐步回归法) 前进法的问题: 一旦某自变量进入模型后,它就永远留在模型中。然而,随着其他自变量的引入,一些先进入模型的变量的作用会变得不再显著。 向后法的问题: 一旦某自变量被删除后,就永远不再进入模型。然而,随着其他自变量被删除,它的作用有可能会显著起来。 Stepwise Regression(逐步回归法) 对于模型外部的变量,只要还能提供显著的解释作用,则可以再次进入模型。而在模型内部的变量,只要它的 t—检验不再显著,则可以从模型中删除。 为了避免变量进出循环,一般选取 t-test的进、出水平不等: 原则:一旦出去,就很难进来。 提示 在建立多元线性回归模型时,不要试图引入更多的自变量,除非确实有必要 在社会科学的研究中,由于所使用的大多数数据都是非试验性质的,因此,在某些情况下,得到的结果往往并不令人满意,但这不一定是选择的模型不合适,而是数据的质量不好,或者是由于引入的自变量不合适 曲线回归问题 (Nonlinear Regression Models) 问题:因变量与自变量之间是曲线关系。 例: 环比发展速度

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档