- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
交叉列联表分析【DOC精选】
交叉列联表分析 ---------用于分析属性数据
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。
对属性数据进行分析,将达到以下几方面的目的:
1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性);
3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。
在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?上网时间与学习成绩是否有关等等.解决这类问题常用到建立列联表,利用统计量作显著性检验来完成.
2.列联表(Contingency Table)
列联表是由两个以上的属性变量进行交叉分类的频数分布表。
设二维随机变量(,),可能取得值为,可能取得值为.现从总体中抽取容量为n的样本,其中事件(==)发生的频率为(i = 1,2, …,r,j=1,2, …,s,)记=,=,则有n === ,将这些数据排列成如下的表:
Y
X …
┇
…
…
… … … …
…
┇
… n 这是一张r×s列联表.
3.属性变量的关联性分析
对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。
属性变量关联性检验的假设为
H0:变量之间无关联性; H1:变量之间有关联性
由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:
H0:变量之间独立; H1:变量之间不独立
检验
H0:与独立.
记P (=,η=) = ,i =1,2,…,r,,j = 1,2,…,s,
P (=) =, i =1,2,…,r,P (=) = ,j = 1,2,…,s.
由离散性随机变量相互独立的定义,则原假设等价于
H0:= ,i =1,2,…,r ,,j = 1,2,…,s.
若已知,我们可以建立皮尔逊统计量
= .
由皮尔逊定理知,的极限分布为.但这里未知,因此用它的极大似然估计代替,这时检验统计量为
=.
在H0成立的条件下,= ,即等价于用和的极大似然估计和的积去代替.可以求得
= , i =1,2,…,r , = , j = 1,2,…,s,
则 = . i =1,2,…,r,,j = 1,2,…,s,
从而得到统计量
== .
在H0成立的条件下,当n∞时,的极限分布为
= .
对给定的显著性水平α,当 >,则拒绝H0,否则接受H0.
特别,当r = s = 2 时,得到2×2列联表,常被称为四格表,是应用最广的一种列联表.这时检验统计量为
=
它的极限分布为(1).
对于二维随机变量(,)是连续取值的情况,我们可采用如下方法将其离散化.
将的取值范围(-∞,+∞)分成r个互不相交的区间,将的取值范围(-∞,+∞)分成s个互不相交的区间,于是整个平面分成了rs个互不相交的小矩形;
求出样本落入小矩形中的频数i =1,2,…,r,,j = 1,2,…,s ;
建立统计量
=,
在H0成立时且n充分大时,的极限分布为,拒绝域的确定同离散型的情况.
3.属性变量的关联度计算
检验的结果只能说明变量之间是否独立,如果不独立,并不能由的值说明它们之间关系的强弱,这可以由系数来说明
系数=
其中 当r=s=2即2×2列联表时-11,其它01,||越接近1,它们之间关联性越强,反之越弱。主要用于2×2列联表
例1(教材p116例4.4)为了了解吸烟与患慢性气管炎的关系,对339名50岁以上的人作了调查,具体数据如下表:
if患病
if吸烟 患病 未患病
合计 吸烟 43 162 205 不吸烟 13 121 134 合计 56 283 339 利用交叉列连表分析,研究吸烟习惯与患慢性气管炎的关系。
解 检验 H0:吸烟与患慢性气管炎无关.
已给数据构成一个四格表, n=339 ,=43, =162,=13,=121,
=205,=13,=134 ,=121,则
==7.469.
若给定α=0.05,查表得(1)= 3.841 7.469,所以拒绝 H0,即认为吸烟习惯与患慢性气管炎有关.但系数=0.148较小,表示相关性不是太大
利用SPSS软件完成
练习1 数据文件“电信用户.sav”中记录了某电信运
文档评论(0)