SPSS_18数据分析基础与实践_第三章数据预处理.pdf

SPSS_18数据分析基础与实践_第三章数据预处理.pdf

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS_18数据分析基础与实践_第三章数据预处理.pdf

第 章 3 第3 章 数据预处理 本章学习目标:  掌握SPSS 数据预处理的可视离散化方法;  了解SPSS 缺失值的填补方法;  掌握SPSS 的数据校验方法;  如何标识重复个案;  如何标识异常个案;  学习如何从数据集中选择符合条件的个案。 随着计算机系统能力的提高,对信息的需要成比例增长,导致收集的数据越来 越多。随之而来的问题是出现更多的个案、更多的变量以及更多的数据输入错误。 这些错误会损害作为数据仓储最终目标的预测模型的预测能力,因此必须使数据保 持“干净”。不过,数据仓储中数据量的增长已经大大超出了手动验证个案的能力, 因而实现自动化的数据验证过程变得十分关键。 数据预处理即当录入或读取数据后,对数据进行必要的清理(包括查错纠错、 标识数据中的异常个案和无效个案、变量和数据值等)、转换、填补缺失值等,为 后续统计分析应用(如均值比较、方差分析、回归分析等)打下良好基础。如果把 整个统计分析过程比作大厨烧菜,那么种菜或去菜场买菜等获取食材就相当于录入 或读取数据,而扔掉坏的菜叶、切菜等准备工作就相当于数据预处理,而在锅里烧 菜烹饪就相当于后续具体统计分析应用(如均值比较、方差分析、相关性分析、回 归分析等)。可见,数据预处理虽不产生最终的分析结果,但作为最终分析的准备, 是数据分析必不可少的一环,它在完整的数据分析项目过程中的位置如图3-1 所示。 在本章中,3.1 节讨论尺度数据(即连续型数据)转换到分类数据的可视离散化 方法;3.2 节讨论SPSS 中数据缺失值的填补方法;3.3 节讨论SPSS 中数据校验的方 法;3.4 节学习如何标识重复个案和异常个案;3.5 节学习如何从数据集中选择满足 条件的个案。 图3-1 统计分析项目过程图 S P S 3.1 可视离散化 S 1 8 可视离散化(可视化分段)(Visual Binning )用于为定量变量(或尺度变量) 数 据 分 创建分类变量(或定性变量),从而实现连续变量的离散化。在统计分析中,有时 析 基 候需要了解总体的大致分布状况,而不需要了解属性的具体信息。例如,调查居民 础 与 的收入水平,实际得到的是以 “元”计数的具体收入值。有时候用户最关心的是处 实 践 于贫困线以下(假设年收入¥2 000 以下为贫困)的居民、中等收入(年收入为¥2 000- ¥30 000 )的居民和高收入 (年收入高于¥30 000 )的居民各占多大比例。这时候, 可以对定量变量年收入进行 “可视离散化”,创建一个包括处于贫困线以下、中等 收入和高收入三个类别的新分类变量或定性变量。再比如,我们收集了居民具体的 年龄数值,但我们关心的是处于各个年龄段的人群的比例。此时,可以对定量变量 年龄进行“可视离散化”,创建一个包括青年、中年、老年三个类别的新分类变量。 打开数据文件1991 U.S. General Social Survey.sav,如图3-2 所示,该数据文件 为1991 年美国普遍社会调查数据。 在原始数据文件中,为了解各个年龄段人群的分布情况,需要对年龄变量进行 可视化分段。SPSS 的可视化分段提供两类分段的方法:直接输入分割点和根据条件 自动生成分割点。其中,根据条件自动生成分割点提供了三种自动生成分割点的方 法:等宽间隔、基于已扫描个案的等

文档评论(0)

整理王 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档