[医学]4统计抽样误差和可信区间.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[医学]4统计抽样误差和可信区间

抽样误差和可信区间 Sampling Error Confidence Intervals 主要内容(Content) 抽样误差及其规律性 标准误 抽样分布与t分布 统计推断与参数估计 总结 一.均数的抽样误差(sampling error)与标准误(standard error, SE) 抽样研究的目的是要用样本信息推断总体特征,称统计推断 1. 抽样误差的定义 假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了三次。 三次抽样得到了不同的结果,原因何在? 抽样误差的定义 【定义】由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error)。 各种参数都有抽样误差,这里我们以均数为研究对象 抽样误差的表现 抽样误差的重要性 2. 抽样误差的规律性(分布) 既然抽样误差是有规律的,那么到底它的分布规律到底是怎样的? A Simulation Study 从正态总体中随机抽样,其样本均数服从正态分布 从任意总体中随机抽样,当样本含量足够大时,其样本均数的分布逐渐逼近正态分布 均数的抽样误差 -μ的分布 3. 标准误的定义 抽样误差的标准差称为标准误(standard error)。 样本统计量的标准差反映了从某个总体中随机抽样所得样本之均数分布的离散程度。 标准误的计算 计算公式为 其中,σ为总体标准差,n为抽样的样本例数 在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计 标准误的意义 反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。 标准误越大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。反之亦然。 标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。 二.t分布 t分布的演化 由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差, 这里,ν为自由度,取值为n-1 由W.S. Gosset提出 t分布的性质 t分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。 t分布以0为中心,左右对称。 分布的高峰位置比 u 分布低,尾部高。 t分布与自由度?有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。 每一自由度下的t分布曲线都有其自身分布规律。t界值表 。 t分布曲线下的面积 t界值表 单侧: P(t -tα,ν)= α或 P(t tα,ν)= α 双侧: P(t -tα/2,ν)+ P(t tα/2,ν)= α 即:P(-tα/2,νt tα/2,ν)= 1-α [例] 查t界值表得t值表达式 t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧) 统计推断 所谓统计推断(statistical inference),是指如何抽样,以及如何用样本性质推断总体特征。 参数估计(parameter estimation) 假设检验(hypothesis testing) 三. 参数估计 点估计(Point Estimation) 区间估计 (Interval Estimation) 参数估计之一:点估计 用样本统计量作为总体参数的估计 例如: 用样本均数作为总体均数的一个估计 区间估计 可信区间的定义 总体均数之可信区间的求解 均数之差的可信区间 可信区间的要素 正确理解可信区间的含义 区间估计 【例4.1】 随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,估计正常成年男子脉搏总体均数。 区间估计的实质 假设某个总体的均数为μ,需要找到两个量A和B,使得在一个比较高的可信度下(如95%),区间(A,B)能包含μ。即 P(AμB)=0.95 可信区间的定义 按一定的概率或可信度(1-α)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-α)称为可信度或者置信度(confidence level),常取95%或99%。 可信区间(CL, CU )是一开区

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档