- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
样本量大于30就都可以认为是正态了吗?
2016-07-06
好多学生或临床医生都问过我:样本量大于30或50是不是就不
用做正态性检验了?而且一本正经地说,这是统计书上说的,有的则
说,这是老师说的。有的说的更专业了:这是根据中心极限定理,当
样本量大于30的时候,就接近正态了。凡此种种,我只能说,回去
好好看书去,或者,哪个老师跟你这么说的。
统计学中确实有一个中心极限定理这个词。但是这个定理不是教
你说,样本量大于30就认为是正态分布了。其实这个定理说的是统
计量的分布,而不是原始数据的分布。仔细体会一下上面这句话,最
少读3遍。
所谓统计量,那当然就是根据一份抽样数据计算出的一个指标,
可能你要说,这怎么会有分布呢?原始数据有分布我还可以理解,就
是把原始数据列个频数表,细化了就成了分布了。可是统计量怎么有
分布呢?一份数据不就只能计算一个统计量吗(如均值、标准差)?
不错,一份数据是只有一个统计量,可是,如果有多个样本,那就可
以有多个统计量,那就有分布了。
比方说,有下面这样一份数据。一共1000个数值,它的分布如
下:
这个数据大家一看很清楚,这是一个明显的偏态数据,左边小的
值更多一些,右边大的值没有几个。
对于这样一份数据,我可以将它作为一个总体,也就是说,总体
数据本身就是偏态的。对于这样的总体,我可以从中抽样,而且可以
抽好多次。假定我抽了100次,这样就得到100个样本(注意100
个样本不是指100个数据,一个样本是指一次抽样,每个样本中的例
数才是样本量)。这100个样本,每次抽样可以抽2个数,也可以
抽10个数,还可以抽100个或几百个,都可以。
假定我做100次抽样,每次抽样只抽2个数,这样每个样本我
可以计算一个均值(虽然只有2个数,仍然可以算这2个数的均
值),这样就得到100个均值,我把这100个均值画个分布图,它
是这样的:
看起来是不是跟原始数据的分布形状差不多啊?
那我们再次重新抽样,还是抽100次,不过这次每次抽10个
数,这样就得到100个样本,每个样本有10个数。这时候再对每个
样本的10个数计算均值,也得到100个均值,把这100个均值画个
分布图,它是这样的:
是不是看起来好像跟原始数据的形状长得不一样了?
如果再次重新抽样,还是抽100次,这次每次抽50个数,再对
每个样本中的50个数计算均值,再次得到100个均值,把这100个
均值画个分布图,它是这样的:
有没有觉得这个图有点眼熟了?看起来像是个正态分布了。
把上面3种情形总结一下:对于一个非正态的总体进行多次抽样
的话,如果每次抽样的例数很少(如2个数据),这时候抽取的多个
样本计算的均值,其分布仍然是偏态的。随着每次抽样的例数增多
(如10个数据),将多个样本计算的多个均值绘制分布图的话,就
逐渐接近正态分布。当样本量足够大的时候,基本就接近正态分布
了。那这个样本量到底在多大的时候才算跟正态分布接近了呢?以前
统计学家已经验证过了,大于30的时候,差不多就很接近了;大于
50的时候,基本可以认为是正态分布了。
其实这个中心极限定理说的是:不管原始数据的分布是什么样的
(可能是正态,也可能偏态,还可能超级变态),如果从这个原始数
据中多次抽样的话,对于每个样本计算出统计量(如均值),如果每
个样本中的例数大于30,这些统计量的分布接近正态。而不是说:一
个样本中的原始数据的个数大于30,这个原始数据的分布接近正态。
可惜,统计学中(当然生活中也是)总是充满了各种以讹传讹,
到最后就变成了听风是雨。如果课堂上老师讲不清楚,那到了学生的
头脑中,就变成了:只要数据大于30,我就不用做正态性检验了,我
就可以理直气壮地用t检验、方差分析了。
说了一堆理论,最后下个结论:哪怕你例数是1000、10000,
该不服从正态分布依然还是不服从正态分布。不要错把冯京当马良,
以后审稿人建议你检查正态性的时候,千万别再说:我的数据大于
100,不用做正态性检验。
您可能关注的文档
- 形容才华的成语.pdf
- 形容事多心烦的成语形容事多的成语(3篇).pdf
- 彝族语言文字.pdf
- 校园暴力事件的原因.pdf
- 校园欺凌主题教育自查报告范文.pdf
- 校园网三期建设计划及经费预算.pdf
- 校报工作总结.pdf
- 校长办公会议事规则.pdf
- 校园防疫手抄报简单又精美.pdf
- 校联合毕业设计任务书参考.pdf
- 安全生产考核奖惩制度3篇.doc
- 颅脑损伤病人的护理查房【优质公开课】精品PPT课件模板.pptx
- 二零二二年度德州继续教育公需科目《公共事务管理与服务能力》试题及答案.pdf
- 二零二二年度党风廉政建设知识竞赛题库(含答案).pdf
- 二零二二年度度枣庄市专业技术人员继续教育公需科目培训班互动题.pdf
- 二零二二年度儿童保健学试题库(含答案).pdf
- 二零二二年度第十九届中国东南地区数学奥林匹克竞赛高一试题(含答案).pdf
- 二零二二年度动物卫生监督题库(含答案).pdf
- 黑龙江省大庆市重点中学2023-2025学年高一下学期2月开学考试英语试题(含解析).docx
- 二零二二年度法检书记员招考《公基》测试题库(含答案).pdf
文档评论(0)