- 1、本文档共95页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 数据预处理 ;;1 SAS数据集的建立 ;;第1步:启动Insight ,选New(新建)按钮,打开新建数据集输入窗口 ;第2步:定义变量个数及变量特性 ;图2-6 进入定义变量菜单;Data Options(P) ;第3步:录入数据 ;第4步:数据存盘 ;永久数据集和临时数据集
永久数据集:
退出SAS系统,数据集不会被系统删除;
默认SASUSER为永久数据库。
位置:c:\my sas files\9.1
临时数据集:
存放在Work数据库中的数据集,只要退出SAS系统,保存在Work数据库中的数据集就会被删除;1 SAS数据集的建立; 表2-1 手术输血与先天性巨结肠术后感染关系的部分数据 ;⑴ 首先对原始数据进行编码 ;⑵ 启动分析员 ;(3)命名变量
(双击默认变量名,修改);(4)录入数据;(5)保存数据集
sasuser.eg2_2
(6)修改变量属性
在分析员中重新打开已保存的文件
先修改打开mode,再修改变量属性;;显示标签;;2 数据集的编辑 ;2.1 数据的删除、追加、复制、移动
(1)删除变量
右键点击所要删除的变量,弹出下拉菜单,选Delete(删除)命令变蓝色,单击鼠标左键,进入delete对话框 ;;(3)追加行
单击任意行序号使其变黑选中,单击右键弹出小菜单点(add),在数据集最后新追加的空数据列录入数据 。
;(4)复制行数据
先选中欲复制行,单击鼠标右键,单击Duplicate命令,复制的数据在所有数据最后显示。 ;(5)删除连续多条记录
从起始点鼠标左键拖到截至,点鼠标右键,弹出小菜单,选择Delete(删除)。;(6)移动变量的前后位置
选中某列,单击右键,选择move ;2.2 创建新变量与变量变换
2.2.1 创建新变量
例2-3 2009年某地区糖尿病流行病学现况调查资料,样本量1930例(数据集eg2_3),部分调查指标及其赋值见表2-3。请在该数据集中增加体重指数变量。体重指数的计算公式为:BMI=体重(kg)/身高2(m)或BMI=体重kg/[(身高cm/100)2],(注意:m换算cm)。 ;;;图 2-38 计算对话框特性介绍;(4)在Category项,点击小三角,找你所要的类别;本例题选计算Arithmetic
(5)输入BMI公式,点OK得到结果 ;图 2-40 例2-3结果;(6)对BMI变量属性进行定义
???键点击BMI变量,选Properties进入修改BMI变量对话框, 单击OK,显示修订BMI的结果,
;图2-43 BMI特性修改后效果;2.2.2 变量变换
在数据小样本分析时,在某个变量不是正态分布或方差不齐的情况下,需要对变量进行变换,例如取对数和开根号等变换,以实现正态分布或方差齐。 ;例2-4 某研究者对不同作业情况的工人进行尿铅含量(mg/L)测定,对不同作业人群随机抽样,经检验各组方差不齐,试作变量变换。 ;操作步骤如下
⑴ 首先建立SAS数据集(过程略…);FZ=分组变量,X=尿铅含量(mg/L);
⑵ 在分析员中调出该数据集,名为:eg2_4
⑶ 从主菜单Edit中,定义编辑方式选Mode中的全表编辑Edit(E)方式; ;⑷ 用鼠标点左键使X变黑,如图;⑸ 再单击主菜单Data,
有两种方式变换:
①直接取对数:
选log(Y)后,即可得到取对数变量; ;②通过函数计算:单击Compute(C)
Category:右侧小三角的下拉菜单,选Mathematical
选以10为底对数并进行加数运算(目的使其方差齐性,0.4是在探索中找到):log(x+0.4),定义好后单击OK;转变后的各组之间log10变量的方差的差异无统计学意义。 ;2.2.3 哑变量转换
在多因素回归分析中,允许自变量是有序或无序(也叫名义)的分类变量,
如果是有序分类变量,一般按影响应变量由小到大的顺序编码为1,2,…,并将它当作连续型变量处理。
如果是无序的分类变量,如:职业分类、疾病的部位和手术方式以及血型等???;
例:某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料(见表)作为示例进行Logistic回归。;;;;例2-5 根据例题2-2提供的资料(数据集eg2_2),对“疾病部位”进行哑变量变换,
“疾病部位”是无序多分类变量,回归分析时需要
文档评论(0)