网站大量收购独家精品文档,联系QQ:2885784924

样本量大于30就都可以认为是正态了吗.pdfVIP

样本量大于30就都可以认为是正态了吗.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

样本量大于30就都可以认为是正态了吗?

2016-07-06

好多学生或临床医生都问过我:样本量大于30或50是不是就不

用做正态性检验了?而且一本正经地说,这是统计书上说的,有的则

说,这是老师说的。有的说的更专业了:这是根据中心极限定理,当

样本量大于30的时候,就接近正态了。凡此种种,我只能说,回去

好好看书去,或者,哪个老师跟你这么说的。

统计学中确实有一个中心极限定理这个词。但是这个定理不是教

你说,样本量大于30就认为是正态分布了。其实这个定理说的是统

计量的分布,而不是原始数据的分布。仔细体会一下上面这句话,最

少读3遍。

所谓统计量,那当然就是根据一份抽样数据计算出的一个指标,

可能你要说,这怎么会有分布呢?原始数据有分布我还可以理解,就

是把原始数据列个频数表,细化了就成了分布了。可是统计量怎么有

分布呢?一份数据不就只能计算一个统计量吗(如均值、标准差)?

不错,一份数据是只有一个统计量,可是,如果有多个样本,那就可

以有多个统计量,那就有分布了。

比方说,有下面这样一份数据。一共1000个数值,它的分布如

下:

这个数据大家一看很清楚,这是一个明显的偏态数据,左边小的

值更多一些,右边大的值没有几个。

对于这样一份数据,我可以将它作为一个总体,也就是说,总体

数据本身就是偏态的。对于这样的总体,我可以从中抽样,而且可以

抽好多次。假定我抽了100次,这样就得到100个样本(注意100

个样本不是指100个数据,一个样本是指一次抽样,每个样本中的例

数才是样本量)。这100个样本,每次抽样可以抽2个数,也可以

抽10个数,还可以抽100个或几百个,都可以。

假定我做100次抽样,每次抽样只抽2个数,这样每个样本我

可以计算一个均值(虽然只有2个数,仍然可以算这2个数的均

值),这样就得到100个均值,我把这100个均值画个分布图,它

是这样的:

看起来是不是跟原始数据的分布形状差不多啊?

那我们再次重新抽样,还是抽100次,不过这次每次抽10个

数,这样就得到100个样本,每个样本有10个数。这时候再对每个

样本的10个数计算均值,也得到100个均值,把这100个均值画个

分布图,它是这样的:

是不是看起来好像跟原始数据的形状长得不一样了?

如果再次重新抽样,还是抽100次,这次每次抽50个数,再对

每个样本中的50个数计算均值,再次得到100个均值,把这100个

均值画个分布图,它是这样的:

有没有觉得这个图有点眼熟了?看起来像是个正态分布了。

把上面3种情形总结一下:对于一个非正态的总体进行多次抽样

的话,如果每次抽样的例数很少(如2个数据),这时候抽取的多个

样本计算的均值,其分布仍然是偏态的。随着每次抽样的例数增多

(如10个数据),将多个样本计算的多个均值绘制分布图的话,就

逐渐接近正态分布。当样本量足够大的时候,基本就接近正态分布

了。那这个样本量到底在多大的时候才算跟正态分布接近了呢?以前

统计学家已经验证过了,大于30的时候,差不多就很接近了;大于

50的时候,基本可以认为是正态分布了。

其实这个中心极限定理说的是:不管原始数据的分布是什么样的

(可能是正态,也可能偏态,还可能超级变态),如果从这个原始数

据中多次抽样的话,对于每个样本计算出统计量(如均值),如果每

个样本中的例数大于30,这些统计量的分布接近正态。而不是说:一

个样本中的原始数据的个数大于30,这个原始数据的分布接近正态。

可惜,统计学中(当然生活中也是)总是充满了各种以讹传讹,

到最后就变成了听风是雨。如果课堂上老师讲不清楚,那到了学生的

头脑中,就变成了:只要数据大于30,我就不用做正态性检验了,我

就可以理直气壮地用t检验、方差分析了。

说了一堆理论,最后下个结论:哪怕你例数是1000、10000,

该不服从正态分布依然还是不服从正态分布。不要错把冯京当马良,

以后审稿人建议你检查正态性的时候,千万别再说:我的数据大于

100,不用做正态性检验。

文档评论(0)

霁色雨后气暧林 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档