网站大量收购闲置独家精品文档,联系QQ:2885784924

统计软件(SAS)应用第二讲1培训材料.ppt

  1. 1、本文档共95页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 数据预处理 ;;1 SAS数据集的建立 ;;第1步:启动Insight ,选New(新建)按钮,打开新建数据集输入窗口 ;第2步:定义变量个数及变量特性 ;图2-6 进入定义变量菜单;Data Options(P) ;第3步:录入数据 ;第4步:数据存盘 ;永久数据集和临时数据集 永久数据集: 退出SAS系统,数据集不会被系统删除; 默认SASUSER为永久数据库。 位置:c:\my sas files\9.1 临时数据集: 存放在Work数据库中的数据集,只要退出SAS系统,保存在Work数据库中的数据集就会被删除;1 SAS数据集的建立; 表2-1 手术输血与先天性巨结肠术后感染关系的部分数据 ;⑴ 首先对原始数据进行编码 ;⑵ 启动分析员 ;(3)命名变量 (双击默认变量名,修改);(4)录入数据;(5)保存数据集 sasuser.eg2_2 (6)修改变量属性 在分析员中重新打开已保存的文件 先修改打开mode,再修改变量属性;;显示标签;;2 数据集的编辑 ;2.1 数据的删除、追加、复制、移动 (1)删除变量 右键点击所要删除的变量,弹出下拉菜单,选Delete(删除)命令变蓝色,单击鼠标左键,进入delete对话框 ;;(3)追加行 单击任意行序号使其变黑选中,单击右键弹出小菜单点(add),在数据集最后新追加的空数据列录入数据 。 ;(4)复制行数据 先选中欲复制行,单击鼠标右键,单击Duplicate命令,复制的数据在所有数据最后显示。 ;(5)删除连续多条记录 从起始点鼠标左键拖到截至,点鼠标右键,弹出小菜单,选择Delete(删除)。;(6)移动变量的前后位置 选中某列,单击右键,选择move ;2.2 创建新变量与变量变换 2.2.1 创建新变量 例2-3 2009年某地区糖尿病流行病学现况调查资料,样本量1930例(数据集eg2_3),部分调查指标及其赋值见表2-3。请在该数据集中增加体重指数变量。体重指数的计算公式为:BMI=体重(kg)/身高2(m)或BMI=体重kg/[(身高cm/100)2],(注意:m换算cm)。 ;;;图 2-38 计算对话框特性介绍;(4)在Category项,点击小三角,找你所要的类别;本例题选计算Arithmetic (5)输入BMI公式,点OK得到结果 ;图 2-40 例2-3结果;(6)对BMI变量属性进行定义 ???键点击BMI变量,选Properties进入修改BMI变量对话框, 单击OK,显示修订BMI的结果, ;图2-43 BMI特性修改后效果;2.2.2 变量变换 在数据小样本分析时,在某个变量不是正态分布或方差不齐的情况下,需要对变量进行变换,例如取对数和开根号等变换,以实现正态分布或方差齐。 ;例2-4 某研究者对不同作业情况的工人进行尿铅含量(mg/L)测定,对不同作业人群随机抽样,经检验各组方差不齐,试作变量变换。 ;操作步骤如下 ⑴ 首先建立SAS数据集(过程略…);FZ=分组变量,X=尿铅含量(mg/L); ⑵ 在分析员中调出该数据集,名为:eg2_4 ⑶ 从主菜单Edit中,定义编辑方式选Mode中的全表编辑Edit(E)方式; ;⑷ 用鼠标点左键使X变黑,如图;⑸ 再单击主菜单Data, 有两种方式变换: ①直接取对数: 选log(Y)后,即可得到取对数变量; ;②通过函数计算:单击Compute(C) Category:右侧小三角的下拉菜单,选Mathematical 选以10为底对数并进行加数运算(目的使其方差齐性,0.4是在探索中找到):log(x+0.4),定义好后单击OK;转变后的各组之间log10变量的方差的差异无统计学意义。 ;2.2.3 哑变量转换 在多因素回归分析中,允许自变量是有序或无序(也叫名义)的分类变量, 如果是有序分类变量,一般按影响应变量由小到大的顺序编码为1,2,…,并将它当作连续型变量处理。 如果是无序的分类变量,如:职业分类、疾病的部位和手术方式以及血型等???; 例:某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料(见表)作为示例进行Logistic回归。;;;;例2-5 根据例题2-2提供的资料(数据集eg2_2),对“疾病部位”进行哑变量变换, “疾病部位”是无序多分类变量,回归分析时需要

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档