北航硕士研究生数理统计A1课件09.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北航硕士研究生数理统计A1课件09

第九讲 回归分析 一些相关关系的例子 人的身高和体重 父亲的身高和儿子的身高 在农业生产中,小麦的亩产量Y与所施肥量x 第一节 一元线性回归 * 一、一元线性回归 三、多元线性回归 二、一元曲线回归 定义1 把呈现不确定性关系的变量间的联系称为相关关系。 相关关系中的两种变量:一类相当于通常函数关系中的自变量,这类变量能够赋予一个需要的值(如室内的温度、施肥量等),或能够取到一个可观测但不能人为控制的值(如室外温度),这种变量称为自变量,或称预报变量。预报变量的变化能波及另一些变量(如水稻亩产),这样的变量称为因变量,或称响应变量。 相关关系中的各种变量可以是普通变量,可以是随机变量。一般把相关关系分为随机变量间的相关关系和随机变量与普通变量间的相关关系。这两种情况假设不同,推导过程也不同,但某些结论却很类似。本章着重讨论后一种关系。但结论对另一种情况也实用。 回归分析是处理变量间的相关关系的一 种有效工具。其目的在于根据已知预报变量的变化来估计或预测响应变量的变化情况,或者根据响应变量来对预报变量做一定的控制。具体来说,它的研究内容如下: 它可以提供变量间相关关系的数学表达式(通常称为经验公式); 且利用概率统计知识,对经验公式及有关问题进行分析、判断以确定经验公式的有效性。 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的; 还可以利用所得经验公式,由一个或几个变量的值,去预测或控制另一个变量的取值,同时还可知道这种预测和控制可以达 到什么样的精度。 为了方便,我们将随机变量Y与其取值y一律用小写字母y表示,而x通常表示普通变量。 回归的由来:英国著名人类学家Franics Galton(1822-1911)于1885年在论文《身高遗传中的平庸回归》中阐述了他的重大发现:子代的身高有向平均值靠拢的趋向。因此,他用回归一词来描述子代身高与父代身高的这种关系。随后,英国著名统计学家K.Pearson等人搜集了上千家庭成员的身高数据,分析出儿子的身高y与父亲的身高x大致可归结为一下关系: y=0.516x+33.73 (单位为英寸) 从而进一步证实了Galton的“回归定律”。 这就是回归一词最初在遗传学上的含义。 回归的现代意义:它要比其原始意义广泛的多。具体地说,回归分析的内容包括: 确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式); 根据样本估计并检验回归模型及未知参数; 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的; 根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。 定义2 设y为随机变量,x为非随机变量,即普通变量,描述y与x的关系的方程称为回归方程,E(y|x)=f(x)的图形称为回归曲线。这个图形为直线时,称为回归直线。 注意:回归曲线有一个取值范围。有时候,尽管两个变量间不是直线关系,但如限制在某个范围时仍作为直线关系来处理,是很有实用价值的。但在作预报时,对于超出这个范围的预报变量作的预报必须注意是不可靠的。预报变量不只一个时,也有类似的情况值得注意。 一 、基本问题 研究随机变量y与普通变量x间的相关关系。 这里对于每个确定的x,y是一个具有确定分 布的随机变量。寻求y的均值与x之间的函数 关系的表达式Ey= ?(x)便是回归分析的基本 问题。这里的?(x)称为y对x的回归函数,或 简称为y对x的回归。 简单而有代表性的情形是, ?(x)与x呈线性 关系, ?(x)=ax+b,用线性函数a+bx来估计y的 数学期望的问题,称为一元线性回归问题。 对于x的一组不全相同的值x1, x2,..., xn做独 立试验,得到随机变量y的相应的观测值y1, y2,..., yn,这样就得到了n对数据:(x1, y1),(x2, y2 ),..., (xn , yn ),我们称之为一组样本容量为 n的样本,我们的任务就是用这组样本来估 计回归函数?(x)=ax+b的表达式。 散点图。可粗略帮助我们了解应用什么形 式的函数来估计?(x).如果散点大致成一直 线,就可用ax+b来估计?(x)。下面详细介 绍之。 二、一元线性回归问题的数学描述及a,b的估计 随机变量y与普通变量x具有下面的关系 其中x是可控(或可观察)的非随机变量, 是随机因素, 是不可观察的随机变量,是许多不可控制或 不了解的随机因素的总和,且满足 这里a,b, ?2都是未知参数,且都不依赖于x. 常称为自变量,或预报变量。

您可能关注的文档

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档