SPSS学习系列09.-缺失值处理.docxVIP

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

SPSS学习系列09.-缺失值处理

09.缺失值处理

空缺值(用“.”表示)和输入错误值,都属于缺失值范畴。

输入错误值需要做“数据检验”来发现:

(1)【分析】——【描述统计】——【描述】和【频率】

(2)【图形】——【旧对话框】——【箱图】

观察极小、极大值、频率、异常值等来判断。例如,性别“男=1,女=2”,若极大值出现3,则是输入错误值;箱线图或3σ原则发现的异常值,则要先改成缺失值。

缺失值的处理方法通常有四种。

一、删除有缺失值的个案

删除有缺失值的个案,或在具体统计分析时的【选项】——【缺失值】框选择某种处理方法:

1.【转换】——【替换缺失值】,打开“替换缺失值”窗口,将变量“统计成绩”选入【新变量】框;

2.【名称和方法】框,设定新变量名称“统计成绩_1”,方法选“序列均值”

3.点【确定】,得到

注意:若某个案的缺失值较多最好删除该个案,而不是替换其缺失值。

三、缺失值分析

SPSS中更高级的处理缺失值的方法是缺失值分析,它能够

(1)缺失值的描述和快速诊断:

用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例是多少,是否与其它变量取值有关,从而得知这些缺失值出现是否会影响分析结论。

(2)得到更精确的统计量:

提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量更加可靠。

(3)用估计值替换缺失值:

使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。

【缺失值分析】实例操作,使用SPSS20自带的实例文件:

telco_missing.sav

1.【分析】——【缺失值分析】,打开“缺失值分析”窗口,将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】,将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】

注意:最大类别(最大分类数)默认为25,超过该数目的分类变量将不引入分析。

2.点【描述】,打开“描述统计”子窗口,用来设置要显示的缺失值描述统计量。

勾选“单变量统计量”,勾选【指示变量统计量】框的“使用有指示变量形成的分组进行的t检验”和“为分类变量和指示变量生成交叉表”,点【继续】

3.点【模式】,打开“模式”子窗口,用来设置显示输出表格中的缺失数据模式和范围。

勾选“按照缺失值模式分组的表格个案”;

因为“教育程度”、“退休”和“性别”中的缺失模式似乎影响数据,“家庭收入”含有大量缺失值,将这些变量选入【附加信息】;

其它保持默认,点【继续】

4.回到原窗口,勾选【估计】框中的“EM”和“回归”,其它默认设置。点击【EM】或【回归】按钮可以修改其设置

注意:若要保存替换缺失值之后的数据,需要勾选“保存完成数据”:创建新数据集并命名,或写入新数据文件。

另外,默认使用所有变量进行分析,若要选择部分变量,可点【变量】按钮修改。

点【确定】,得到输出结果:

单变量统计

N

均值

标准差

缺失

极值数目a

计数

百分比

tenure

968

35.56

21.268

32

3.2

0

0

age

975

41.75

12.573

25

2.5

0

0

address

850

11.47

9.965

150

15.0

0

9

income

821

71.1462

83.14424

179

17.9

0

71

employ

904

11.00

10.113

96

9.6

0

15

reside

966

2.32

1.431

34

3.4

0

33

marital

885

115

11.5

ed

965

35

3.5

retire

916

84

8.4

gender

958

42

4.2

a.超出范围(Q1-1.5*IQR,Q3+1.5*IQR)的案例数。

提供了数据的一般特征,给出了所有分析变量缺失数据的频数、百分比,定量变量的均值、标准差、极值数目。

income(家庭收入)有最多具有缺失值(17.9%),也有最多的极值;而age(年龄)有最少缺失值(5%)。

估计均值摘要

tenure

age

address

income

employ

reside

所有值

35.56

41.75

11.47

71.1462

11.00

2.32

EM

36.12

41.91

11.58

77.3941

11.22

2.29

回归

35.77

41.68

11.59

74.3174

10.99

2.32

估计标准差摘要

tenure

age

address

income

employ

reside

所有值

21.268

12.573

9.965

83.14424

10.113

1

文档评论(0)

185****9651 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档