SPSS_18数据分析基础与实践_第三章数据预处理.pdf

下载文档

61
0
约5.36万字
约 41页
2017-08-18 发布于湖北
举报
版权申诉
保障服务

SPSS_18数据分析基础与实践_第三章数据预处理.pdf

1、本文档共41页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第章 3 第3 章数据预处理本章学习目标：  掌握SPSS 数据预处理的可视离散化方法；  了解SPSS 缺失值的填补方法；  掌握SPSS 的数据校验方法；  如何标识重复个案；  如何标识异常个案；  学习如何从数据集中选择符合条件的个案。随着计算机系统能力的提高，对信息的需要成比例增长，导致收集的数据越来越多。随之而来的问题是出现更多的个案、更多的变量以及更多的数据输入错误。这些错误会损害作为数据仓储最终目标的预测模型的预测能力，因此必须使数据保持“干净”。不过，数据仓储中数据量的增长已经大大超出了手动验证个案的能力，因而实现自动化的数据验证过程变得十分关键。数据预处理即当录入或读取数据后，对数据进行必要的清理（包括查错纠错、标识数据中的异常个案和无效个案、变量和数据值等）、转换、填补缺失值等，为后续统计分析应用（如均值比较、方差分析、回归分析等）打下良好基础。如果把整个统计分析过程比作大厨烧菜，那么种菜或去菜场买菜等获取食材就相当于录入或读取数据，而扔掉坏的菜叶、切菜等准备工作就相当于数据预处理，而在锅里烧菜烹饪就相当于后续具体统计分析应用（如均值比较、方差分析、相关性分析、回归分析等）。可见，数据预处理虽不产生最终的分析结果，但作为最终分析的准备，是数据分析必不可少的一环，它在完整的数据分析项目过程中的位置如图3-1 所示。在本章中，3.1 节讨论尺度数据（即连续型数据）转换到分类数据的可视离散化方法；3.2 节讨论SPSS 中数据缺失值的填补方法；3.3 节讨论SPSS 中数据校验的方法；3.4 节学习如何标识重复个案和异常个案；3.5 节学习如何从数据集中选择满足条件的个案。图3-1 统计分析项目过程图 S P S 3.1 可视离散化 S 1 8 可视离散化（可视化分段）（Visual Binning ）用于为定量变量（或尺度变量）数据分创建分类变量（或定性变量），从而实现连续变量的离散化。在统计分析中，有时析基候需要了解总体的大致分布状况，而不需要了解属性的具体信息。例如，调查居民础与的收入水平，实际得到的是以 “元”计数的具体收入值。有时候用户最关心的是处实践于贫困线以下（假设年收入￥2 000 以下为贫困）的居民、中等收入（年收入为￥2 000- ￥30 000 ）的居民和高收入（年收入高于￥30 000 ）的居民各占多大比例。这时候，可以对定量变量年收入进行 “可视离散化”，创建一个包括处于贫困线以下、中等收入和高收入三个类别的新分类变量或定性变量。再比如，我们收集了居民具体的年龄数值，但我们关心的是处于各个年龄段的人群的比例。此时，可以对定量变量年龄进行“可视离散化”，创建一个包括青年、中年、老年三个类别的新分类变量。打开数据文件1991 U.S. General Social Survey.sav，如图3-2 所示，该数据文件为1991 年美国普遍社会调查数据。在原始数据文件中，为了解各个年龄段人群的分布情况，需要对年龄变量进行可视化分段。SPSS 的可视化分段提供两类分段的方法：直接输入分割点和根据条件自动生成分割点。其中，根据条件自动生成分割点提供了三种自动生成分割点的方法：等宽间隔、基于已扫描个案的等