- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
将??入? 相关系数的计算公式得 ad 等于 bc , ? = 0,表明变量X 与 Y 之间独立 若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全部落在对角线上,此时|?| =1,表明变量X 与 Y 之间完全相关 列联表中变量的位置可以互换,?的符号没有实际意义,故取绝对值即可 9.4.2 列联相关系数 用于测度大于2?2列联表中数据的相关程度,计算公式为 C 的取值范围是 0?C1 C = 0表明列联表中的两个变量独立 C 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大。2?2列联表完全相关时,c=0.7071;3?3列联表完全相关时,c=0.8165;4?4列联表完全相关时,c=0.87 根据不同行和列的列联表计算的列联系数不便于比较 9.4.3 V相关系数 计算公式为 其中 V 的取值范围是 0?V?1 V = 0表明列联表中的两个变量独立 V=1表明列联表中的两个变量完全相关 不同行和列的列联表计算的列联系数不便于比较 当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=? 9.4.4 数值分析 ?、C、V 的比较 同一个列联表,?、C、V 的结果会不同 不同的列联表,?、C、V 的结果也不同 在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数 9.5 列联分析中应注意的问题 9.5.1 条件百分表的方向 通常将自变量放在列的位置,将因变量放在行的位置。 如果因变量在样本中的分布和在总体中的分布不同时,可以进行调整。 9.5.2 卡方分布的期望值准则 准则一:如果只有两个单元,每个单元的期望频数必须≥5 准则二:如果有两个以上单元,20%以上的单元期望频数<5时,不能使用卡方检验 如果期望值过小, 会不适当的增大,造成对 的高估,导致不适当的拒绝原假设的结论 * 第9章 分类数据分析 9.1 分类数据与卡方统计量 9.1.1 分类数据 调查结果虽然用数值表示,但不同数值描述的是调查对象的不同特征。分类数据汇总的结果表现为频数。 卡方检验是对分类数据的频数进行分析的统计方法。 9.2 拟合优度检验 依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异。 1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以α=0.1的显著性水平检验存活状况与性别是否有关。 如果存活状况与性别无关,男性与女性的幸存比例应该相等。 海难后幸存比例为718/2208=0.325 男性应该为1738*0.325=565人 女性应该为470*0.325=153人。 观测值 期望值 男 374 565 -191 36481 64.6 女 344 153 191 36481 238.4 H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致 自由度为:分类变量类型的个数-1=1 c2 α=0.1 2.705 决策:拒绝H0 结论:有证据表明存活状况与性别显著相关 拒绝域 一项统计结果声称,某市老年人口所占比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人老年人。调查结果是否支持14.7%的看法? 观测值 期望值 老年人 57 59 -2 4 0.0678 非老年人 343 341 2 4 0.0117 H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致 如果该项统计可靠,400居民中老年人的频数应该为400*14.7%=59 自由度为:分类变量类型的个数-1=1 c2 α=0.05 5.024 决策:接受H0 结论:调查结果支持该项统计结论 拒绝域 9.3 列联分析:独立性分析 9.3.1 列联表 由两个以上的变量进行交叉分类的频数分布表 行变量的类别用 r 表示, ri 表示第 i 个类别 列变量的类别用 c 表示, cj 表示第 j 个类别 每种组合的观察频数用 fij 表示 表中列出了行变量和列变量的所有可能的组合,所以称为列联表 一个 r 行 c 列的列联表称为 r ? c 列联表 列联表的结构(2 ? ? 列联表) 列( cj ) 合计 j =1 j =1 i =1 f11 f12 f11+ f12 i =2 f21 f22 f21+ f22 合计 f11+ f21 f12+ f22 n 列(cj) 行 (ri) 一个2 ? ? 列联表 列联表的结构(r ? c 列联表的一般表示) 列(cj) 合计 j =1
文档评论(0)