- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS_18数据分析基础与实践_第三章数据预处理.pdf
第 章
3
第3 章
数据预处理
本章学习目标:
掌握SPSS 数据预处理的可视离散化方法;
了解SPSS 缺失值的填补方法;
掌握SPSS 的数据校验方法;
如何标识重复个案;
如何标识异常个案;
学习如何从数据集中选择符合条件的个案。
随着计算机系统能力的提高,对信息的需要成比例增长,导致收集的数据越来
越多。随之而来的问题是出现更多的个案、更多的变量以及更多的数据输入错误。
这些错误会损害作为数据仓储最终目标的预测模型的预测能力,因此必须使数据保
持“干净”。不过,数据仓储中数据量的增长已经大大超出了手动验证个案的能力,
因而实现自动化的数据验证过程变得十分关键。
数据预处理即当录入或读取数据后,对数据进行必要的清理(包括查错纠错、
标识数据中的异常个案和无效个案、变量和数据值等)、转换、填补缺失值等,为
后续统计分析应用(如均值比较、方差分析、回归分析等)打下良好基础。如果把
整个统计分析过程比作大厨烧菜,那么种菜或去菜场买菜等获取食材就相当于录入
或读取数据,而扔掉坏的菜叶、切菜等准备工作就相当于数据预处理,而在锅里烧
菜烹饪就相当于后续具体统计分析应用(如均值比较、方差分析、相关性分析、回
归分析等)。可见,数据预处理虽不产生最终的分析结果,但作为最终分析的准备,
是数据分析必不可少的一环,它在完整的数据分析项目过程中的位置如图3-1 所示。
在本章中,3.1 节讨论尺度数据(即连续型数据)转换到分类数据的可视离散化
方法;3.2 节讨论SPSS 中数据缺失值的填补方法;3.3 节讨论SPSS 中数据校验的方
法;3.4 节学习如何标识重复个案和异常个案;3.5 节学习如何从数据集中选择满足
条件的个案。
图3-1 统计分析项目过程图
S
P
S
3.1 可视离散化
S
1
8 可视离散化(可视化分段)(Visual Binning )用于为定量变量(或尺度变量)
数
据
分 创建分类变量(或定性变量),从而实现连续变量的离散化。在统计分析中,有时
析
基 候需要了解总体的大致分布状况,而不需要了解属性的具体信息。例如,调查居民
础
与 的收入水平,实际得到的是以 “元”计数的具体收入值。有时候用户最关心的是处
实
践
于贫困线以下(假设年收入¥2 000 以下为贫困)的居民、中等收入(年收入为¥2 000-
¥30 000 )的居民和高收入 (年收入高于¥30 000 )的居民各占多大比例。这时候,
可以对定量变量年收入进行 “可视离散化”,创建一个包括处于贫困线以下、中等
收入和高收入三个类别的新分类变量或定性变量。再比如,我们收集了居民具体的
年龄数值,但我们关心的是处于各个年龄段的人群的比例。此时,可以对定量变量
年龄进行“可视离散化”,创建一个包括青年、中年、老年三个类别的新分类变量。
打开数据文件1991 U.S. General Social Survey.sav,如图3-2 所示,该数据文件
为1991 年美国普遍社会调查数据。
在原始数据文件中,为了解各个年龄段人群的分布情况,需要对年龄变量进行
可视化分段。SPSS 的可视化分段提供两类分段的方法:直接输入分割点和根据条件
自动生成分割点。其中,根据条件自动生成分割点提供了三种自动生成分割点的方
法:等宽间隔、基于已扫描个案的等
文档评论(0)