2013数据分析法--回归分析.ppt

  1. 1、本文档共99页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2013数据分析法--回归分析

4.1 概述 4.2 相关分析 4.3 线性回归 (重点) 4.4 曲线估计 4.5 非线性回归 4.6 二项Logisitc回归(重点) ;相关分析与回归分析的区别;相关分析与回归分析的区别; 一个因变量是怎样被一个或多个自变量影响的 非确定性关系;;实际问题建立回归模型的过程;4.2 相关分析;4.2.1 相关系数;双变量关系强度测量的主要指标;适用于两分类变量的分析;4.2.2(1)相关分析的基本操作; Bivariate相关分析步骤;4.2.2(2) 应用举例;输出结果;上节中的相关系数是研究两变量间线性相关性的,若还存在其他因素影响,就相关系数本身来讲,它未必是两变量间线性相关强弱的真实体现,往往有夸大的趋势。 例如,在研究商品的需求量和价格、消费者收入之间的线性关系时,需求量和价格之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。;偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。;4.2.4(1) 偏相关分析的基本操作;4.2.4(2) 应用举例;输出结果;4.3 线性回归;一元线性模型: 其中x为自变量;y为因变量; 为截距,即常量; 为回归系数,表明自变量对因变量的影响程度。; 用最小二乘法求解方程中的两个参数,得到 ;多元线性回归模型;多元线性回归的估计;1、回归方程的拟合优度-判定系数;回归方程的显著性检验是要检验被解释变量与所有的解释变量之间的线性关系是否显著。 对于一元线性回归方程,检验统计量为: 对于多元线性回归方程,检验统计量为:;3. 回归系数的显著性检验(t检验);4.3.3 回归诊断;满足Gauss-Markov条件(即等方差与不相关假定): 正态分布假定条件: 各自变量序列之间不相关: ;残差是指由回归方程计算得到的预测值与实际样本值之间的差距,定义为: 对于线性回归分析来讲,如果方程能够较好的反映被解释变量的特征和规律性,那么残差序列中应不包含明显的规律性。残差分析包括以下内容:残差服从正态分布,其平均值等于0;残差取值与X的取值无关;残差不存在自相关;残差方差相等。 ;因变量的异常值:超过±3 的残差对应的观测值; 自变量的异常值:远离 的是回归方程的强影响点 Cook(库克)距离 当 时,为异常值点.;异方差产生的原因: 1)模型中省略的不重要因素随自变量的变化而变化; 2)利用平均数作为样本数据,容易产生异方差; 3)样本观测时产生的观测误差,可能是不同时间导致观测误差不同,也可能是观测技术突然有了改进等。 异方差带来的问题: 1) 利用OLS得出的参数估计值不再具有最小方差的优势; 2) 在此估计参数下,进行回归系数检验,导致检验值高估,使某些不显著的自变量变为显著的; 3) 造成因变量的预测值精度下降,应用效果差。;1) 对于残差均值和方差齐性检验可以利用残差图进行分析。如果残差均值为零,残差图的点应该在纵坐标为0的中心的带状区域中随机散落。如果残差的方差随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出现了异方差现象。;2) Spearman(斯皮尔曼)检验,即等级相关系数检验 建模时不能消除数据的异方差,只能消除异方差带来的不良影响。最常用的方法是加权最小二乘法(Weighted Least Squares, WLS)。;自相关产生的原因: 1) 经济变量的滞后性; 2) 回归模型的形式选择不合理或是遗漏了某些重要的自变量因素; 3) 经济问题中的蛛网现象; 4) 数据加工处理时进行平滑、插分、消除季节性的手段。 自相关带来的问题与异方差相同: 1) 利用OLS得出的参数估计值不再具有最小方差的优势; 2) 使某些不显著的自变量变为显著的; 3) 因变量的预测值精度下降。;DW检验用来检验残差的自相关。检验统计量为: DW=2表示无自相关,在0-2之间说明存在正自相关,在2-4之间说明存在负的自相关。一般情况下,DW值在1.5-2.5之间即可说明无自相关现象。;SPSS 操作模块;多重共线性的检验 多重共线性是指解释变量之间存在线性相关关系的现象。测度多重共线性一般有以下方式: 1) 容忍度: 其中, 是第i个解释变量与方程中其他解释变量间的复相关系数的平方,表示解释变量之间的线性相关程度。容忍度的取值范围在0-1之间,越接近0表示多重共线性越强,越接近1表示多重共线性越弱。 2) 方差膨胀因子VIF。方差膨胀因子是容忍度的倒数。VIF越大多重共线性越强,当VIF大于等于10时,说明存在严重的多重共线性。 ;3) 特征根和方差比。根据解释变量的相关系数矩阵求得的特征根中,如果最大的特征根

您可能关注的文档

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档