- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
sas软件及统计应用教程9as软件及统计应用教程9sas软件及统计应用教程9sas软件及统计应用教程9
第九章 属性(分类)数据分析 9.1 属性数据及其分析 9.2 SAS中的属性数据分析 9.1 属性数据及其分析 9.1.1 属性数据分析与列联表 9.1.2 属性变量关联性分析 9.1.3 属性变量关联度计算 9.1.4 有序变量关联性分析 9.1.1 属性数据分析与列联表 1. 属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表; 2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量; 4) 对高维数据进行分层分析和建模。 2. 列联表 列联表(contingency table)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果如表9-1所示。 表9-1 关于改革方案的调查结果(单位:人) 表中的行(row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(column)是单位变量,这里划分为四类,即四个分公司。表9-1所示的列联表称为2?4表。 交叉表的基本形式如图9-1所示。 这是一张具有r行和c列的一般列联表,称它为r?c表。其中,第i行第j列的单元表示为单元ij。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观测个数用n表示,在单元ij中的观测个数表示为nij,称为单元频数。 9.1.2 属性变量关联性分析 对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。 属性变量关联性检验的假设为 H0:变量之间无关联性; H1:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为: H0:变量之间独立; H1:变量之间不独立 1. ?2检验 在双向表的情形下,如果行变量与列变量无关联性的原假设H0成立,则列联表中各行的相对分布应近似相等,即 (j = 1,2,…,c) 或 (j = 1,2,…,c) 其中mij称为列联表中单元ij在无关联性假设下的期望频数,而nij是单元ij的观测频数。 为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检验是?2检验。?2统计量为: 在H0成立的条件下,当观测数据较大时,?2统计量的分布近似服从自由度为(r - 1)(c – 1)的?2分布。 由于?2分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的?2值往往偏大,相应的p值偏小,从而人为地增加了犯第一类错误的机会。为纠正这种偏性,可采用校正?2,用?C2表示。 注:通常要求?2检验应满足的条件是:n≥40且所有单元的期望频数均不小于5。 ?2校正的条件:n≥40但有单元的期望频数小于5。 2. Fisher精确检验 Fisher精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。 Fisher精确检验计算在H0成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率p之和 对于双边检验,A是具有概率p小于或等于观测表概率的表的集合;对于左(右)边检验,A是这样一些表的集合,其中每个表的单元ij中频数小于(大于)或等于观测表中相应的频数。 9.1.3 属性变量关联度计算 1. φ系数 φ系数是描述2?2表数据关联程度最常用的一种相关系数。其计算公式为: 其中,?2即?2统计量。 |φ|的取值范围是在0 ~ 1之间,φ的绝对值越大,说明行变量与列变量的关联程度越高。φ = 0,表示变量之间相互独立;|φ| = 1,表示变量之间完全相关,此时列联表某个方向对角线上的值全为0。 当列联表r ? c中的行数r或列数c大于2时,φ系数将随着r或c变大而变大,且φ无上
您可能关注的文档
- qc小组与建设坚强电网qc组与建设坚强电网qc小组与建设坚强电网qc小组与建设坚强电网.doc
- qc七大手法-培训版qc七手法-培训版qc七大手法-培训版qc七大手法-培训版.ppt
- qml入门教程.doc
- pra设计 第 2 章 速实训pra设计 第 2 章 速写实训pra设计 第 2 章 速写实训pra设计 第 2 章 速写实训.ppt
- qms---qp-015采控制程序qms---qp-015采购控制程序qms---qp-015采购控制程序qms---qp-015采购控制程序.doc
- qc质量检验员培训教程qc量检验员培训教程qc质量检验员培训教程qc质量检验员培训教程.ppt
- qcc实施相关表格qcc实相关表格施相关表格.doc
- qp-10(d1)基础设施理 newqp-10(d1)基础设施管理 newqp-10(d1)基础设施管理 newqp-10(d1)基础设施管理 new.doc
- qe大潮退却 美联储引而不qe大潮退却 美联储引而不发qe大潮退却 美联储引而不发qe大潮退却 美联储引而不发.doc
- ps教案--修复画笔工具组s教案--修复画笔工具组ps教案--修复画笔工具组ps教案--修复画笔工具组.ppt
- 书面表达之建议信(讲义)-中考英语一轮复习(含答案).pdf
- 中考历史复习小众题型类:填空题、改错题、判断题(70题).pdf
- 2024年吉林省县乡教师选调考试《教育学》真题汇编带解析必背【基础题】.pdf
- 2025年中考语文备考之《朝花夕拾》名著导读及考题.pdf
- 小说标题的含义和作用(模拟突破)-2025年中考语文考点突破之小说阅读(解析版).pdf
- 阅读理解之应用文(练习)-中考英语一轮复习(含答案).pdf
- 小说情节作用(模拟突破)-2025年中考语文考点突破之小说阅读(原卷版).pdf
- 小说段落作用(模拟突破)-2025年中考语文考点突破之小说阅读(解析版).pdf
- 小说段落作用(试题专练)-2025年中考语文考点突破之小说阅读(解析版).pdf
- 2025年上海市16区初三语文一模试题汇编之现代文阅读二(记叙文)学生版.pdf
最近下载
- 2025年八省联考山西陕西宁夏青海高考化学试卷(含答案解析).docx
- 一元二次方程的解法——配方法ppt省公开课获奖课件说课比赛一等奖课件.pptx
- 国家及行业标准_J-B_T 5285-2008 真空净油机.pdf
- 必威体育精装版通用BIQS审核检查表中英文版.xlsx
- 老年学概论(第3版) 第十二章.ppt VIP
- 卫生部临床路径全部病种目录(含病种名称、ICD码及文件号)--吐血整理.pdf VIP
- 大学考试试卷《安全监测监控技术》及参考答案.doc VIP
- 全国性行业协会商会参考名单.pdf
- 公司基本情况介绍范文(二篇).pdf
- 某市人大2024年贯彻落实中央八项规定精神情况报告.docx VIP
文档评论(0)