- 1、本文档共52页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS第10章
第十章 多元线性回归与曲线拟合 怎么,说了半天回归和相关的区别与联系你还没有弄明白?那打个比方吧:我们之间是什么关系?师生关系;那么我们之间有什么差别?男女差别。 回归分析是处理两个及两个以上变量间线性依存关系的统计方法。 相关分析用于描述两个变量间联系的密切程度,它反映的是当控制了其中一个变量的取值后,另一个变量还有多大的变异程度。 SPSS的Regression菜单 线性回归:包括简单线性回归和多元线性回归,由Linear过程实现,这是应用最为广泛的回归过程。 非线性回归:是线性趋势向非线性趋势的拓展,包括Curve Estimation过程和Nonlinear Regression过程,其中后者的分析能力极为强大,但要求的统计学知识也较多。 针对应变量为分类资料的回归方法:它们以Logistic模型为代表,包括二分类、无序多分类和有序多分类Logistic过程以及Probit过程。这些方法发展的极为迅猛,己得到了非常广泛的应用。 其他回归过程:针对线性回归假设被违反的各种情况而推出的一些“补充”方法,包括Weight Estimation过程、Two-Stage Least-Squares过程和Optimal Scaling过程,这些方法有其特定用途,不能随意使用。 1 Linear过程 Linear过程主要用于拟合多元线性回归模型,它和Binary Logistic过程是Regression菜单中使用频率最高的两个过程,这是因为线性回归模型在科研、生产工作中得到了广泛的应用。不仅如此,该模型还起着全书承上启下的重要作用:前面讲过的方差分析模型和相关分析与它有着极为密切的关系,而后面的Logistic回归、Cox模型等又以它为基础。 1.1 线性回归模型简介 【概述】 比如我们收集了20名糖尿病人的血糖(y,mmol/L)、胰岛素(x1,mu/L)及生长素(x2,ug/L)的数据,希望建立血糖浓度与胰岛素及生长素的多元线性回归方程,则实际上拟合的模型如下: 这里,称为y的估计值或预测值(predicted value),表示给定各自变量的值时,应变量y的估计值:a为截距(intercept),在回归方程中又称为常数项(constant),表示各自变量均为0时y的估计值;bi称为偏回归系数(partial regression coefficient),简称为回归系数,表示其他自变量不变,xi每改变一个单位时,我们所预测的y的平均变化量。比如该方程中最终求得b1=0.52,则表示当胰岛素上升一个单位时,病人的血糖平均上升0.52个单位 如果从个体的角度来看待线性回归模型,则上式可改写为如下形式: 其中ei为随机误差,被假定为服从均数为0的正态分布。即对每一个个体而言,在知道了所有自变量取值时,我们能确定的只是应变量的平均取值,个体的具体取值在其附近的一个范围内。而具体取值和平均取值间的差异(即ei)被称为残差,这一部分变异是当前模型力所不能及的部分。 上面的模型公式其实和方差分析模型公式是一回事。这并不奇怪,它们都属于一般线性模型,是同一片叶子的两面而已。 既然模型中有无法消除的残差存在,采用初中学过的那种两点确定一条直线的方法是无法求得方程中具体参数值了。由于方程应当和大多数点尽量靠近,从模型算得的预测值应当就是总体中相应个体y值的均数,为此人们一般采用最小二乘法来拟合模型,即保证各实测点至同归直线纵向距离的平方和为最小。如果采用此法拟合,则它和方差分析模型完全等价。 【适用条件】 根据不同的分析目的,线性回归模型的适用条件会有所不同,这里给出的是基本的适用条件。 线性趋势:自变量与应变量的关系是线性的,如果不是,则不能采用线性回归来分析,这可以通过散点图来加以判断。 独立性:可表述为应变量y的取值相互独立,它们之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关,否则应当采用自回归模型来分析。 正态性:就自变量的任何一个线性组合,应变量y均服从正态分布,反映到模型中,实际上就是要求ei服从正态分布。 方差齐性:就自变量的任何一个线性组合,应变量y的方差均相同,实质就是要求残差的方差齐。 如果只是建立方程,探讨自变量与应变量间的关系,而无需根据自变量的取值预测应变量的容许区间、可信区间等,则后两个条件可以适当放宽。 此外,多元线性同归模型也有自己的样本量要求,虽然在这方面还没有精确的计算公式可供选择,但根据人们的经验,记录数应当在希望分析的自变量数的20倍以上为宜。比如希望分析五个自变量,则样本量应当在100以上,少于此数则可能会出现检验效能不足的问题。此时得到的阳性结论并非不可信,但在解释时要加倍小心,需要时刻牢记得到的系数可能是不稳定的。 【常用指标】 1.偏回归系数:
文档评论(0)