统计建模-回归分析统计建模回归分析-回归分析.ppt

统计建模-回归分析统计建模回归分析-回归分析.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计建模-回归分析统计建模回归分析统计建模-回归分析统计建模-回归分析

统计建模 ─回归分析 相关分析 对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的, 但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。 类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。 相关分析 发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。 如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢? 最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。 相关性的度量 Pearson相关系数(Pearson’s correlation coefficient)又叫相关系数或线性相关系数 Kendall t 相关系数(Kendall’s t) Spearman 秩相关系数(Spearman rank correlation coefficient 或Spearman’s r) 相关系数也是取值在-1和1之间 当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关) 当两个变量不那么线性相关时,相关系数就接近0。 SPSS的相关分析 相关分析(hischool.sav) 利用SPSS选项:Analize-Correlate-Bivariate 再把两个有关的变量(这里为j3和s1)选入,选择Pearson,Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。 例1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。这两个成绩的散点图如下。 目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关? 能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。 该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。 到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响? 是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢? 初三和高一成绩的Pearson相关系数,Kendall t 相关系数和Spearman 秩相关系数分别为0.795, 0.595和0.758。 这三个统计量相关的检验(零假设均为不相关)全部显著,p-值都是0.000。注意这种0.000的表示并不表示这些p-值恰好等于零,只是小数点前三位是0而已。 一元线性回归分析 对例1中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图1中的那些点的趋势。 首先需要确定选择这条直线的标准。这里介绍最小二乘回归(least squares regression)。古汉语“二乘”是平方的意思。 这就是寻找一条直线,使得所有点到该直线的豎直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。 Regression菜单 线性回归: 包括简单线性回归和多元线性回归,由Linear过程实现 非线性回归 是线性趋势向非线性趋势的拓展,包括Curve Estimation过程和Nonlinear Regression过程 分析步骤 做出散点图,观察变量间的趋势。 考察数据的分布,做必要的预处理 分析变量的正态性和方差齐性等问题。 进行线性回归分析 残差分析,检查残差的独立性和正态性 强影响点的诊断和多重共线性问题的判断 常用指标 偏回归系数b 反映相应一个自变量上升一个单位时,应变量取值的变动情况 决定系数R2 即相应的相关系数的平方,用R2表示。反映应变量y的全部变异中能够通过回归关系被自变量解释的比例。 R2越接近1越好 回归直线意义的F检验 统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,配合回归直线没有意义(但Sig越小越好) 残差的独立性检验 Durbin-Watson检验的参数D的取值范围是0D4,与2越接近表示残差与自变量越独立 SPSS的回归分析 自变量和因变量都是定量变量时的线性回归分析(hischool.sav) 利用SPSS选项:Analize-Regression-Linear 再把有关的自变量选入Independent,把因变量选入D

您可能关注的文档

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档