教学课件 高级心理统计--刘红云.pptxVIP

  1. 1、本文档共462页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

新编21世纪心理学系列教材

高级心理统计

数据清理

Cleaningupyourdata

◆了解异常值的概念和产生原因,掌握检验与处理异常值的方法。

◆了解数据的缺失类型,掌握检查数据缺失程度、诊断数据缺失机制的方法,知道如何选择合适的插补方法对缺失值进行插补。

◆熟悉多元分析的常见假设,并掌握这些假设的检验方法,知道违背多元分析假设时,该如何对变量进行校正。

核心要点

提纲

·1数据清理和准备的主要目的

·2极端数据的处理

·3缺失数据的处理

·4前提假设条件的检验

·5案例操作

1数据清理和准备的主要目的

·极端值会扭曲分析结果

·缺失值在采集数据时很难避免

·使用多元统计方法之前,需要确保数据集和前提假设匹配

2.极端数据的处理

·异常值的定义

·异常值的检测

·异常值的处理

2.1异常值的定义

·单变量异常值即在某个变量上的值明显高或者低。

·多变量极端值指在两个或多个变量上值的奇怪组合,使得该观测与其他观测明显不同。

存在一个有影响观测值的散点图存在一个没有影响观测值的散点图

A

x

2.1异常值的定义

异常值的来源:

1.过程性错误

2.异常事件

3.异常的观测

4.各变量值正常,组合起来很异常

1.单变量异常值的检测

1)根据标准分数判定

小样本标准分数大于等于2.5

大样本最高是4

2)盒式图

大于上四分位数1.5倍四分位距或小于下四分位数1.5倍四分位距

被划分为异常值。

处于1.5倍-3倍四分位矩之间的异常值为温和的异常值O

处于3倍四分位距之外的异常值为极端的异常值

2.2异常值的检测

2.2异常值的检测

2.双变量异常值的检测

散点图

X19

2.2异常值的检测

3.多变量异常值的检测

马氏距离

D²=(x-J)Fv-1(k-i)

D²/df近似服从t分布,可以对其进行显著性检验,置信度为α=0.005或0.001,将落在置信区间外的观测点识别为潜在异常值。

小样本时临界值设为2.5,

大样本时临界值设为3或4

2.3异常值的处理

·如果异常值不属于总体,就删除

·如果异常值可代表总体的一部分,或不确定是否异常,尽量保留,转换变量降低极端值对分析结果的影响

3.缺失数据的处理

·缺失数据的定义和影响

·处理缺失数据的一般步骤

3.1缺失数据的定义及影响

□缺失数据是在一个数据集中,由于各种各样的原因而导致的个案在一个或多个变量上信息的缺失。

□缺失数据使样本量减少,会导致统计检验力的下降,此外,对于非随机的缺失机制,得到的统计结果可能是有偏的。

3.2处理缺失数据的一般步骤

(1)检查数据的缺失类型

(2)检查数据的缺失程度

(3)诊断数据的缺失机制

(4)选择插补方法

(1)检查数据的缺失类型

·设计上可忽略的缺失数据A.是请回答第2题

1.缺失是研究设计的一部分B.否请直接跳答第3题

2.抽样而不是总体

3.截断数据:用男飞行员的身高估计男性整体身高·设计上不可忽略的缺失数据

1.已知的情况:过程性因素导致的缺失。比如数据录入错误,无效编码(用户定义缺失值);数据公开受限;没有完成问卷;被试选取失误(生病等)等。

2.未知的情况:直接由被试的原因导致的。比如被试拒绝回答某些题目(如收入、有争议的话题等敏感问题);被试没有足够的知识回答问题等。

个案编号

V1

V2

V3

V4

个案缺失情况

个数

比例(%)

1

5

3

4

1

0

0

2

1

2

3

1

25

3

2

4

2

50

4

3

3

4

2

0

0

5

1

3

5

1

25

变量缺失情况

总的缺失情况

个数

2

1

1

0

个数

4

比例(%)

40

20

20

0

比例(%)

20%

(2)检查数据的缺失程度

①每个个案(case)在所有变量上的缺失比例;

②在每个变量上缺失数据的个案比例;

③在所有变量上都没有缺失的个案比例。

(2)检查数据的缺失程度

口缺失比例低于10%,使用任何一种缺失数据的处理方法,差异都不大,但不包括非随机缺失。

口对有过多缺失的个案或变量进行简单的处理

—删除;缺失比例15%以上的变量可以考虑删除,但缺失比例更高的(20%~30%),通常会进行补救

(2)检查数据的缺失程度

口注意:

①要确保在删除一个变量或个案后,总体上数据的缺失比例会明显减小。

②通常会删除因变量有缺失的个案,避免造成因变量与自变量之间的关系虚假高估。

③删除一个变量时,确保数据中有可替代的变量,替代变量与被删变量具有高相关。

④考虑对删除前后的数据同时进行分析,其分析结果是否存在明显差异。

(3)诊断数据的缺失机制

口缺失值的模式

■完全

文档评论(0)

yangzhuangju + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档