交叉列联表分析.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
交叉列联表分析 用于分析属性数据 属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性 (Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。 在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解 决这类问题常用到建立列联表,利用? 列联表(Contingency Table) 2统计量作显著性检验来完成. 列联表是由两个以上的属性变量进行交叉分类的频数分布表。 设二维随机变量( X , Y ), X 可能取得值为 x , x2 ,?, x , Y 可能取得值 1为ry , y 1 为 r 1 2 , , y ?s ? .现从总体中抽取容量为 n 的样本,其中事件( X = x Y = y j ) n ,r j= ,s n ?s n n ?r n 发生的频率为 i j (i = 1,2, ? , 1,2, ? ,)记 i ? = i j , j = i j , ??r s ? ? 则有 n =  ni j = ?  ni ? =  ?s n j ?1 i?1 j ,将这些数据排列成如下的表: iri?1 j ?1 i?1 j ?1 i r Y Y X y 1 y ? y n 2 s i ? x 1 n 11 x2 ┇ n 1 2 n 2 2 ? ? ? ? n 1 s n 2 s ? n ? 1 n 2 1 ? n 2 ? ┇ x i n r 1 n r 2 ? n r s n r ? n ? j n ? 1 n ? 2 ? n ? s n 这是一张 r×s 列联表. 属性变量的关联性分析 对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时, 另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。 属性变量关联性检验的假设为 H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写 为: ? 2H0:变量之间独立; ? 2 检验 H : X 与Y 独立. 0 i j记 P ( X = x ,η= y ) = i j i j ,i =1,2,?,r,,j = 1,2,?,s, i j . jP ( X = x ) = p , i =1,2,?,r,P ( Y = y ) = p ,j = 1, i j . j i. 由离散性随机变量相互独立的定义,则原假设等价于 H : p = p p ,i =1,2,?,r ,,j = 1,2,?,s. ? 20 i j i. . ? 2 若 p 已知,我们可以建立皮尔逊 i j  统计量 r s (n n p )2 ? 2 = ? ? i j i j . i ji?1 ij ?1 n i j 由皮尔逊定理知, ? 2 的极限分布为 ? 2(rs ?1) .但这里 p 未知,因此用它 i j p? 的极大似然估计 ij 代替,这时检验统计量为 =? 2 ?r = (n ?s i j ? n p? )2 i j . i?1 ij ?1 n p? i j 在 H 成立的条件下, p = p p ,即等价于用 p 和 p 的极大似然估计 0 i j i. . j i? .? j p? p? i ? 和 ? j ? n  的积去代替.可以求得 ? n in ?p = i ? , i =1,2,?,r , p i n ? ? = ? j , j = 1,2,?,s, n ? 则 pij = ni ? n j . i =1,2,?,r,,j = 1,2,?,s, n n 从而得到统计量 (n ? n ? ? )2 ? r s i j p p ? r s n 2 ? ?2= ? ? ???i? ? j = n ?? ???i j ? 1? . i?1  ij ?1 n p? p? i? ? j ? ? i?1 ij ?1 ni ? n? j ? 在 H 成立的条件下,当 n ? ∞时, ? 2 的极限分布为 0 ? 2 (rs ?(r ? s ? 2)?1) = ? 2 ((r ?1)(s ?1)) . >对给定的显著性水平α,当受 H . > 0 ? 2 ? 2 1?? ((r ?1)(s ?1)) ,

文档评论(0)

hao187 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体武汉豪锦宏商务信息咨询服务有限公司
IP属地上海
统一社会信用代码/组织机构代码
91420100MA4F3KHG8Q

1亿VIP精品文档

相关文档