- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1、通过频率比较法,图形分析法判断两个分类变量是否有关系。(不精准) (1) ︱ad -bc︱ (2) a/a+b≈c/c+d * * 制作人:赵艳丽 1.2 独立性检验的基本思想及其初步应用 在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。 如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为“分类变量”。如,对于性别变量,其取值为男和女两种。在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍…… 在日常生活中,我们常常关心两个分类变量之间是否有关系,例如吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响等等。 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人) 表1-7 吸烟与患肺癌列联表 那么吸烟是否对患肺癌有影响? 因此,直观上得到结论: 吸烟者和不吸烟者患肺癌的可能性存在差异。 在不吸烟者中患肺癌的比例是 在吸烟者中患肺癌的比例是 0.54% 2.28% 与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟 总计 患肺癌 不患肺癌 列联表:两个分类变量的频数表 探究: 三维柱形图 作三维柱形图要注意选择恰当的视角,以使每个柱体都能看到。 7775 42 2099 49 二维条形图 7775 42 2099 49 等高条形图 不患病比例 患病比例 0.54% 2.28% 上面我们通过分析数据和图形,得到的直观印象是“吸烟和患肺癌有关”。这一直觉来自于观测数据,即样本。 问题是它能够在多大程度上代表总体呢? H0:吸烟与患肺癌没有关系 我们假设 看看能推出什么样的结论。 a+b+c+d b+d a+c 总计 c+d d c 吸烟 a+b b a 不吸烟 总计 患肺癌 不患肺癌 为了研究的一般性,在列联表1-7中中用字母代替数字: 结论:|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强; 如果”吸烟与患肺癌没有关系”,则在吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即 a+b+c+d b+d a+c 总计 c+d d c 吸烟 a+b b a 不吸烟 总计 患肺癌 不患肺癌 为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量(卡方统计量) 若H0成立,即“吸烟与患肺癌没有关系”,则 应该很小。 利用公式(1)计算得K2的观测值为: 接下来,我们就利用卡方统计量K2来判断探究中“吸烟与患肺癌有关”的可靠程度。 例:现在,根据表1-7中的数据 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟 总计 患肺癌 不患肺癌 在H0成立的情况下,统计学家估算出如下的概率: 即在H0成立的情况下,K2的值大于6.635的概率非常小,近似于0.010。 现在的观测值56.632远大于6.635,即假设成立的概率为0.010,是小概率事件,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”。但这种判断会犯错误,犯错误的概率不会超过0.010 。即有99%的把握认为“吸烟与患肺癌有关”。 上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 练习1、在吸烟和患肺癌这两个分类变量的计算中,下列说法正确的是 ( ) A、若K2的观测值k=6.635,我们在犯错的概率不超过0.010的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺病 C、若从统计量中求出有5%的可能性使得推断出现错误,是指有95%的把握认为吸烟与患肺病有关系 D、以上三种说法都不正确 C 解析:因为统计结果只是说明事件发生的概率大小,具体到一个个体不一定发生。 a+b+c+d b+d a+c 总计 c+d d c a+b b a 总计 若要推断的结论为H1:”X与Y有关系”,可进行如下操作: 2、图形分析法:通过等高条形图。 你能从上述探究过程中总结出判断两个分类变量有关系的思路吗? 1、频率比较法:根据列联表。 思考: 3、独立性检验法 用它的大小可以决定是否拒绝原假设H0,如果K2值很大,就断言H0不成立,即认为“两
文档评论(0)