- 1、本文档共96页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元线性回归201011ppt课件
SAS程序: proc plot; plot oxygen*runtime=s; plot oxygen*weight=*; plot oxygen*age=#; run; proc corr; var oxygen sbp1; run; 多重相关分析(续) 复相关系数(全相关系数)表示变量y与变量xk(k=1,2,3,…k)之间的线性密切程度 复相关系数度量一个变量与多个变量间的线性相关关系 复相关系数是总体相关系数ρ的有偏估计,其取值0~1之间 * Lyy:Y的离均差平方和,又称总的平方和 * * * MODEL语句中的选择项之: 界定回归模型的选项: (1) selection=Forward;(前进法) selection=Backward;(后退法) selection=stepwise;(逐步回归法) selection=none;(系统默认值,进行全回归分析) (2) Details; include=正整数(如3);(这个选项规定将model指令前几个(如3个)自变量纳入每一回归模型汇总,此选项不能与selection=none的设定联用。 MODEL语句中的选择项之: 界定回归模型的选项: (4) STOP=正整数(如5); (REG程序搜寻出一个含STOP=正整数个数的最佳回归模型后即停止) (5) SLENTRY= ;(或SLE= ;) 进入模型的显著性水平的设置,其中前进法默认值为0.5,逐步回归法默认值为0.15 (6) SLSTAY= ; (或SLS= ;) 保留在模型中的显著性水平的设置,其中后退法默认值为0.10,逐步回归法默认值为0.15 (7) NOINT; 回归模型中不包含截距。 练习后小结 从以上的练习可看到: 不同的逐步回归方法所得到的结果不同; 不同的界值所得到的结果不同; 方程的优劣与界值的大小无必然联系; 逐步回归所得到的结果不一定是真正最优的; 如果事先已经确定某自变量对因变量结果有重要影响,则该变量必须一直留在方程中,不参加变量的筛选,不管它是否有显著性。变量筛选接受后,再考虑该变量的回归系数是否与实际情况相符。 如果模型与实际情况不符,则需查找原因。 样本量太小或自变量数太多 异常值 自变量间存在共线性等 六、回归系数反常的原因(此部分不做要求仅供参考) 出现回归系数反常的常见原因 样本量不够,或自变量数太多; 异常值; 自变量的变异太小; 自变量间存在共线性。 (一)样本量问题 有学者认为,作多元回归分析时所需样本量一般是所研究变量数m的10~20倍。 但这一要求在复相关系数(决定系数的平方根)大于0.5时尚可,而对于较小的复相关系数则仍然偏小。 (二)异常值及强影响点 定义:在回归分析应用中,数据常含有一些异常或极端的观察值,即这些观察值与其他数据远远分开,并可产生较大的残差,严重影响了回归函数的拟合。 原因: 真实存在 录入错误 异常点判别方法: 图示法:散点图、残差图:适用于当模型中所含变量少时。 统计学指标: 学生化残差(studentized residual):当其大于2时,提示所对应的观察值点可能是异常点。 强影响点判别方法: 库克氏距离(Cook‘D):通常认为其大于0.5时,可认为第I个观察点对回归函数拟合有较强的影响。 4.MODEL语句中的选择项之: 界定异常值和强影响点的有关参数: /R:进行预测值的残差分析; /INFLUENCE:规定对每个观测值进行影响分析,以判断其观测对估计及预测值的影响。 (三)共线性问题 在回归分析中存在多元共线性是一个十分普遍的现象。 自变量之间的任何相关都标志着多元共线性的存在。 1.共线性的存在所带来的后果: 回归系数估计值不稳定,表现为: 回归参数估计值的标准误很大; 原本非常重要的自变量对回归无统计学意义而不能进入方程; 严重时可使样本回归系数可大可小,可正可负,其专业意义无法解释而出现悖论。 对这些前提条件和数据可靠性从统计方法上进行检查即为回归诊断,同时也必须结合专业考虑。 2. 共线性判别方法: 2.1 Xj的容许值(TOL) TOL(j)=1-R2(j) R2(j)为Xj与其余m-1个回归变量间线性相关的程度,如果Xj与其余m-1个自变量共线性严重,则R2(j)=1,则TOL=0,反之TOL=1。 这个方法简单,但无明确诊断界限,可作为共线性诊断的参考指标。 2.2 方差膨胀因子(VIF) VIF=
文档评论(0)