- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十讲 初等统计模型 5月11日 2班用 5月13日 1班用 假设检验 方差分析 一元线性回归 数理统计是建立在概率论之上的实用性学科,而与各领域结合形成的统计学已经在数学中相对独立形成了理学学科的重要组成部分。 在终极的分析中,一切知识都是历史; 在抽象的意义下,一切科学都是数学; 在理性的基础上,所有的判断都是统计。 ——C.R.劳《统计与真理》 统计学入门参考阅读书目 《概率论与数理统计》(第二版)茆诗松,程依明,濮晓龙,高等教育出版社 《统计模型-理论与实践》(原书第二版)美David A.Freedman 吴喜之 译,机械工业出版社 《数据挖掘概念与技术》Jiawei Han,Micheline Kamber 范明,孟小峰 译,机械工业出版社 浙大经典教材《概率论与数理统计》 人大经典教材《统计学》 格致方法(定量研究系列) 10.1 假设检验 假设检验的核心思想: 都这么小概率了还能跑出去,肯定不行 都这么大概率了还跑不出去,应该靠谱 按照某院士(忘了是谁)的观点:假设检验应该是重在拒绝而非承认,因此原假设在最大似然思想下被拒绝看以看做知识积累、“去噪”的过程 上述检验问题的检验统计量是什么? 两者都假定总体是正态的,知道总体的方差,后者不知道总体的方差 类似地,可以检验两个正态总体均值差;检验正态总体的方差;偏度,峰度都可以进行检验 10.2 方差分析 单因素方差分析的数学模型 10.3 一元线性回归模型 回归分析(Regression Analysis),就是研究变量之间的统计相关关系的一种统计方法。它从自变量和因变量的一组观测数据出发,寻找一个函数式,将变量之间的统计相关关系近似地表达出来。这个能够近似表达自变量与因变量之间关系的函数式,称为回归方程或回归函数。 一元线性回归分析 已知一组数据(xi, yi), i=1,2,?n (平面上的n个点), 用最小二乘准则确定一个线性函数(直线) 问题 1. 血压与年龄 2. 合金强度与碳含量 怎样衡量由最小二乘准则拟合得到的模型的可靠程度? 怎样给出模型系数的置信区间和因变量的预测区间? 系数的计算二者没有什么区别; 2的拟合效果比1好得多. 一元线性回归模型 x~自变量 yn y2 y1 xn x2 x1 ~回归系数 ?~随机变量(影响y的随机因素的总和) 独立性: 对于不同的x,y相互独立 线性性: y的期望是x的线性函数 0 x y 基本假设 齐次性: 对于不同的x,y的方差是常数 正态性: 对于给定的x,y服从正态分布 ? 是相互独立的、期望为0、方差为?2、正态分布的随机变量,即? ~N (0, ?2), ? 称(随机)误差。 回归系数的最小二乘估计 数据xi, yi( i=1,?n)代入 误差平方和 直线 通过xi, yi的均值点 最小二乘估计 线性无偏最小方差估计 一元线性回归的统计分析 1.误差方差D? =?2 的估计 yi理论值(期望)的估计 误差?i的估计,称残差(记作ei ) 残差平方和 ?2的无偏估计 n-2~Q的自由度=数据容量 ? 模型中所含参数的个数 s2~剩余方差(样本方差),s~剩余标准差(样本标准差) 2. 回归系数的区间估计和假设检验 统计性质: 和Q相互独立 ?1的置信区间 对?1的假设检验 t 分布 问: 怎样缩短?1的置信区间? 拒绝H0 回归模型有效 ?1的置信区间不包含零点 一元线性回归的统计分析 3.模型的有效性检验 总偏差平方和 回归平方和 残差平方和 偏差的分解: S U Q = + 决定系数 因变量的总变化中自变量引起的部分的比例 F F(1,n-2), 1-? 若H0成立 给定? ,有F(1,n-2), 1-? 一元线性回归的统计分析 拒绝H0 回归模型有效 利用一元线性回归模型进行预测 x0给定, y0的预测值: 性质: 无偏, 且 最小 预测区间 n很大且 x0接近 0 x y s~剩余标准差 一元线性回归的MATLAB实现 b=regress(y,X) [b,bint,r,rint,s]=regress(y,X,alpha) 输入:y~因变量(列向量),X~1与自变量组成的矩阵,alpha~显著性水平?(缺省时设定为0.05)。 输出: ,bint~?0, ?1的置信区间,r~残差(列向量),rint~残差的置信区间, s(3个统计量):决定系数R2; F值; F(1,n-2)分布大于
文档评论(0)