第三章.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章

§3.1 残差及残差图 统计诊断的内容和意义 我们所选择的模型能不能大体上反映所要研究的实际问题? 我们收集的数据会不会由于收集过程中的疏忽或其它种种原因而出现较大的误差?这些错误数据会不会严重干扰我们对实际问题所作的结论? 综合以上所述回归诊断有如下主要内容: §3.2 回归诊断一(数据的诊断) (一)、统计诊断的两个基本概念 (1)异常点 在回归模型中,异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何种程度才算是异常,这就必须对模型误差项的分布有一定的假设(通常假定为正态分布)。 目前对异常点有以下两种较为流行的看法: 把异常点看成是那些与数据集的主体明显不协调,使得研究者大感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端点,即落在分布的单侧或双侧分位点以外的点,而通常取很小的值(如:0.005 ),致使观察者对数据中出现如此极端的点感到意外。 (2)强影响点 数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时,有几个基本问题需要考虑: 首先必须明确“是对哪个统计量的影响?”例如,线性回归模型所考虑的是对回归系数的估计量的影响;不是对误差方差的估计影响;或是对拟合优度统计量的影响等等。分析目标不同,所考虑的影响亦有所不同。 (二)、影响分析 §3.3 回归诊断二(模型的诊断) 模型修改后的预测值及残差 模型修改后的残差图 误差方差齐性诊断 三、误差的独立性诊断 在不少有关时间问题中,观测值往往呈相关的趋势。如河流的水位总有一个变化过程,当一场暴雨使河流水位上涨后往往需要几天才能使水位降低,因而当我们逐日测定河流最高水位时,相邻两天的观测间就不一定独立。 回归诊断在SAS上的实现 用语句plot r.*p. (r是residual的缩写,p是predicted的缩写)可以作残差r相对于拟合值p之间的散点图。如果此散点图在0水平线上下均匀散布,且对p没有趋向性,则可认为 满足方差齐性假设、且认为回归函数线性假设合理。 model y=x/dw r; 选项里加上dw表示计算DW检验的值。 r表示计算学生化残差,并计算Cook距离,若Cook距离相对较大,则课认为是强影响点。若学生化残差的绝对值大于2,则可认为是异常点。从学生化残差也可判断误差的正态性假设是否满足。 例子. 给10只大白鼠注射内霉素(30mg/kg)后,测得每只大鼠红细胞x与血红蛋白含量Y数据(见下页SAS文件),试对X和Y进行回归分析。 data mouse; input x y; cards; 654 130 786 168 667 143 605 130 761 158 642 129 652 151 706 153 602 151 539 109 ; proc reg; model y=x; run; proc reg; model y=x/noint dw r cli clm; plot r.*p.; run; 残差图 误差的独立性诊断 第九个为异常点、强影响点 Output Statistics Std Error Student Cooks Obs Residual Residual -2-1 0 1 2 D 1 9.279 -1.129 | **| | 0.136 2 9.056 -0.0913 | | | 0.001 3 9.259 -0.0288 | | | 0.000 4 9.350 0.00543 | | | 0.000 5 9.101 -0.600 | *| | 0.054 6 9.297 -0.957 | *| | 0.094

文档评论(0)

ailuojue2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档