- 1、本文档共36页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学08.ppt
统计学 ─从数据到结论 第八章列联表、c2检验和对数线性模型 三维列联表(关于某项政策调查所得结果:table7.txt) 列联表 前面就是一个所谓的三维列联表(contingency table). 这些变量中每个都有两个或更多的可能取值。这些取值也称为水平;比如收入有三个水平,观点有两个水平,性别有两个水平等。该表为3×2×2列联表 在下面SPSS数据中,表就和上面的不同,收入的“低”、“中”、“高”用代码1、2、3代表;性别的“女”、“男”用代码0、1代表;观点“赞成”和“不赞成”用1、0代表。有些计算机数据对于这些代码的形式不限(可以是数字,也可以是字符串)。 列联表 列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。 二维的列联表又称为交叉表(cross table)。 列联表可以有很多维。维数多的叫做高维列联表。 注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。 二维列联表的检验 研究列联表的一个主要目的是看这些变量是否相关。比如前面例子中的收入和观点是否相关。 这需要形式上的检验 二维列联表的检验 下面表是把该例的三维表简化成只有收入和观点的二维表(这是SPSS自动转化的:Analyze-Descriptive Statistics-Crosstabs-…..). 二维列联表的检验 对于上面那样的二维表。我们检验的零假设和备选假设为 H0:观点和收入这两个变量不相关;H1:这两个变量相关。 这里的检验统计量在零假设下有(大样本时)近似的c2分布。 当该统计量很大时或p-值很小时,就可以拒绝零假设,认为两个变量相关。 二维列联表的检验 实际上有不止一个c2检验统计量。包括Pearson c2统计量和似然比(likelihood ratio)c2统计量;它们都有渐近的c2分布。 对于我们的数据,根据计算可以得到(对于这两个统计量均有)p-值小于0.001。因此可以说,收入高低的确影响观点。 二维列联表的检验 刚才说,这些c2统计量是近似的,那么有没有精确的统计量呢? 当然有。这个检验称为Fisher精确检验;它不是c2分布,而是超几何分布。 对本问题,计算Fisher统计量得到的p-值也小于0.001。 Fisher精确检验的又一例子 二维列联表的检验 聪明的同学必然会问,既然有精确检验为什么还要用近似的c2检验呢? 这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的c2统计量。而列联表的有关检验也和c2检验联系起来了。 高维列联表和(多项分布)对数线性模型 前面例子原始数据是个三维列联表,其检验和对两维类似。 但高维列联表在计算机软件的选项上有所不同,而且可以构造一个所谓(多项分布)对数线性模型(loglinear model)来进行分析。 利用对数线性模型的好处是不仅可以直接进行预测,而且可以增加定量变量作为模型自变量的一部分。 对数线性模型 现在简单直观地通过二维表介绍一下对数线性模型,假定不同的行代表第一个变量的不同水平,而不同的列代表第二个变量的不同水平。用mij代表二维列联表第i行,第j列的频数。人们常假定这个频数可以用下面的公式来确定: (多项分布)对数线性模型 该模型看上去和回归模型很象,但由于分布假设不同,不能简单地用线性回归的方法来套用(和Logistic回归类似);计算过程也很不一样(把这个留给计算机去操心)。只要利用数据来拟合这个模型就可以得到对于参数m的估计(没有意义),以及ai和bj的“估计”。 有了估计的参数,就可以预测出任何i,j水平组合的频数mij了(通过对数) (多项分布)对数线性模型 注意,这里的估计之所以打引号是因为一个变量的各个水平的影响是相对的, 只有事先固定一个参数值(比如a1=0),或者设定类似于Sai=0这样的约束,才可能估计出各个的值。 没有约束,这些参数是估计不出来的。 (多项分布)对数线性模型 二维列联表的更完全的对数线性模型为 用table7.txt数据拟合对数线性模型 假定(多项分布)对数线性模型为 对数线性模型 高维表的检验统计量和二维表一样也包含了Pearson c2统计量和似然比c2统计量, 检验对数线性模型拟合的好坏程度的。 就我们这里的三维列联表问题,如果只考虑各个变量单独的影响,而不考虑变量组合的综合影响,计算机输出的Pearson c2统计量和似然比c2统计量得到的p-值分别为0.0029和0.0011。 多项分布对数线性模型的SPSS实现 [数据table7.sav] 假定已经加权 (加权一次并存盘了既可) 这时的选项为Analyze-Loglinear-General,
文档评论(0)