网站大量收购闲置独家精品文档,联系QQ:2885784924

3、4 数据管理.ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3、4 数据管理

第二讲 数据管理 3. 变量级别的数据管理 3.1变量级别的数据管理 3.1变量级别的数据管理 3.1变量级别的数据管理 2.Compute过程的分析实例 例3.1年龄变量S3的分组 将受访者年龄为18-64岁分为18-34、35-54、55-64三组,新变量为TS3,取值分别为1、2、3。 操作: 打开计算变量—目标名TS3—数字表达式1—确定 打开计算变量—目标名TS3—数字表达式2—如果S3=35 S3=54—继续 打开计算变量—目标名TS3—数字表达式3—如果S3=55—继续 3.1变量级别的数据管理 3.1变量级别的数据管理 例根据数据transform.sav统计英语成绩在60分以上的学生的语文和数学的平均成绩 3.1变量级别的数据管理 3.1变量级别的数据管理 3.1变量级别的数据管理 3. 变量级别的数据管理 3.2对已有变量值进行分组合并 3. 变量级别的数据管理 1.对连续变量进行分组 例3.1直接编码为其他变量 操作:转换—重新编码为其他变量—S3数字变量输出变量—输出变量TS3—更改 旧値和新值匹配 3. 变量级别的数据管理 1.对连续变量进行分组 例3.1直接编码为其他变量 旧値和新值匹配 3. 变量级别的数据管理 2.分类变量类别的合并 将CCSS中的学历S4中的初中和高中合并为中等,大专和本科合并为高等,硕士及以上合并为研究生。 操作:转换—重新编码为不同变量-输出变量Ns4,标签学历等级—旧値和新值 3.3变量级别的数据管理 3.3连续变量的可视化分段(离散化) Visual Binning:将连续变量用百分位数、标准差范围或等间距方式分为若干组,并采用图形化操作,直观方便。 例:将S3年龄变量分为10组。 操作: 转化—可视离散化—将S3选入“要离散的变量”-继续 生成分割点—10-5-应用—生成标签 新变量命名S3new. 3.3变量级别的数据管理 3.3变量级别的数据管理 3.3变量级别的数据管理 3.3变量级别的数据管理 最优离散化过程(了解) 将可离散化的过程进一步自动化,根据某些作为“关键指示变量”的分类变量,将原有的一个或多个连续变量按照分类变量间差异最大化的优化原则离散化为分类变量,然后可以使用离散化变量进行后续分析。 例3.3,P56 3.3变量级别的数据管理 例3.3,P56 3.3变量级别的数据管理 例3.3,P56 3.4变量级别的数据管理 3.4.1将字符变量转换为数值变量 Automatic Recode:自动按原变量值大小或字母排序生成新变量 例:3.4将CCSS-sample.sav中字符型S0转化为数值型S0new 3.4变量级别的数据管理 3.4.2变量值移动 时间序列模型及特殊方法中需要将变量或数据前移后移 3.5其他功能 3.5.1指定数值的查找与计数 标识某个变量的取值是否出现某个值,可以是单个值、区间。 操作:转换-对个案内的值计数 例3.4生成新变量s3old,用于标出55岁(含)以上的个案取值为1,否则为0. 3.5其他功能 3.5其他功能 3.5.2变量的编秩(了解) Rank Cases:对记录按照某个变量值的大小排序。 例3.6根据S2性别分组计算S3年龄的秩。 3. 变量级别的数据管理 3. 变量级别的数据管理 3.5Transform菜单中的其他功能(略) 自动准备建模数据 随机数字生成器 4.文件级别的数据管理 对整个文件进行加工处理,Data菜单功能如下: 简单命令:插入变量、插入记录和到达某条记录 常用简单过程:排序、拆分文件、选择记录和加权记录 数据重组向导:数据转置、长宽型格式转换等 文件合并向导:将几个数据文件合并为一个大的(横向、纵向) 数据字典相关功能:定义变量属性、复制、新建属性 数据准备相关功能:自动查错、快速查找异常记录 与统计模型相关:正交设计过程,生成结合分析 其他过程:定义日期变量、数据汇总 4.1几个常用过程 4.1.1个案排序 简单排序:变量名点右键,出现如图sort ascending等 4.1文件级别的数据管理 4.1.1个案排序 多变量排序:“排序个案”菜单 4.1文件级别的数据管理 4.1.2分割文件 拆分之后再进行描述统计分析,以便比较。 4.1文件级别的数据管理 4.1.3(选择个案)记录筛选 只对其中的部分数据进行分析。 操作: 数据-选择个案-(选择和输出) 输出:1)过滤掉位选中的个案;2)将选定的个案复制到新数据集;3)删除未选中个案 4.1文件级别的数据管理 4.1.4加权个案(了解) 以頻数格式录入的数据(同样数据n条) 案例数据抽样权重的调整 理想情况是等概率随机抽样,但实际上是分层抽样,因此为非等概率随机抽样,需要加权。一旦使用权重,则该变量权重始终保持有

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档