[误差棒标准差标准误差.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[误差棒标准差标准误差

标准差(Standard Deviation) 和 标准误差(Standard Error)本文摘自Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502.?标准差(Standard Deviation)标准差,缩写为S.D., SD, 或者 s (就是为了把人给弄晕?),是描述数据点在均值(mean)周围聚集程度的指标。如果把单个数据点称为“Xi,” 因此 “X1” 是第一个值,“X2” 是第二个值,以此类推。均值称为“M”。初看上去Σ(Xi-M)就可以作为描述数据点散布情况的指标,也就是把每个Xi与M的偏差求和。换句话讲,是(单个数据点—数据点的平均)的总和。看上去挺有逻辑性的,但是它有两个缺点。第一个困难是:上述定义的结果永远是0。根据定义,高出均值的和永远等于低于均值的和,因此它们相互抵消。可以取差值的绝对值来解决(也就是说,忽略负值的符号),但是由于各种神秘兮兮的原因,统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方,因为任何数的平方肯定是正的。所以,我们就有Σ(Xi-M)2。另外一个问题是当我们增加数据点后此等式的结果会随之增大。比如我们手头有25个值的样本,根据前面公式计算出SD是10。如果再加25个一模一样的样本,直觉上50个大样本的数据点分布情况应该不变。但是我们的公式会产生更大的SD值。好在我们可以通过除以数据点数量N来弥补这个漏洞。所以等式就变成Σ(Xi-M)2/N.根据墨菲定律,我们解决了两个问题,就会随之产生两个新问题。第一个问题(或者我们应该称为第三个问题,这样能与前面的相衔接)是用平方表达偏差。假设我们测量自闭症儿童的IQ。也许会发现IQ均值是75, 散布程度是100 个IQ点平方。这IQ点平方又是什么东西?不过这容易处理:用结果的平方根替代,这样结果就与原来的测量单位一致。所以上面的例子中的散布程度就是10个IQ点,变得更加容易理解。最后一个问题是目前的公式是一个有偏估计,也就是说,结果总是高于或者低于真实的值。解释稍微有点复杂,先要绕个弯。在多数情况下,我们做研究的时候,更感兴趣样本来自的总体(population)。比如,我们探查有年轻男性精神分裂症患者的家庭中的外现情绪(expressed emotion,EE)水平时,我们的兴趣点是所有满足此条件的家庭(总体),而不单单是哪些受研究的家庭。我们的工作便是从样本中估计出总体的均值(mean)和SD。因为研究使用的只是样本,所以这些估计会与总体的值未知程度的偏差。理想情况下,计算SD的时候我们应当知道每个家庭的分值(score)偏离总体均值的程度,但是我们手头只有样本的均值。根据定义,分值样本偏离样本均值的程度要小于偏离其他值,因此使用样本均值减去分值得到的结果总是比用总体均值(还不知道)减去分值要小,公式产生的结果也就偏小(当然N很大的时候,这个偏差就可以忽略)。为了纠正这个问题,我们会用N-1除,而不是N。总之,最后我们得到了修正的标准差的(估计)公式(称为样本标准差):顺带一下,不要直接使用此公式计算SD,会产生很多舍入误差(rounding error)。统计学书一般会提供另外一个等同的公式,能获得更加精确的值。现在我们完成了所有推导工作,这意味着什么呢?假设数据是正态分布的,一旦知道了均值和SD,我们便知道了分值分布的所有情况。对于任一个正态分布,大概2/3(精确的是68.2%)的分值会落在均值-1 SD和均值+1 SD之间,95.4%的在均值-2 SD 和均值+2 SD之间。比如,大部分研究生或者职业院校的入学考试(GRE,MCAT,LSAT和其他折磨人的手段)的分数分布(正态)就设计成均值500,SD 100。这意味68%的人得分在400到600之间,略超过95%的人在300到700之间。使用正态曲线的概率表,我们就能准确指出低于或者高于某个分数的比例是多少。相反的,如果我们想让5%的人淘汰掉,如果知道当年测试的均值和SD,依靠概率表,我们就能准确划出最低分数线。总结一下,SD告诉我们分值围绕均值的分布情况。现在我们转向标准误差(standard error)。标准误差(Standard Error)前面我提到过大部分研究的目的是估计某个总体(population)的参数,比如均值和SD(标准方差)。一旦有了估计值,另外一个问题随之而来:这个估计的精确程度如何?这问题看上去无解。我们实际上不知道确切的总体参数值,所以怎么能评价估计值的接近程度呢?挺符合逻辑的推理。但是以前的统计

文档评论(0)

zhuanyewd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档