- 1、本文档共462页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
新编21世纪心理学系列教材
高级心理统计
数据清理
Cleaningupyourdata
◆了解异常值的概念和产生原因,掌握检验与处理异常值的方法。
◆了解数据的缺失类型,掌握检查数据缺失程度、诊断数据缺失机制的方法,知道如何选择合适的插补方法对缺失值进行插补。
◆熟悉多元分析的常见假设,并掌握这些假设的检验方法,知道违背多元分析假设时,该如何对变量进行校正。
核心要点
提纲
·1数据清理和准备的主要目的
·2极端数据的处理
·3缺失数据的处理
·4前提假设条件的检验
·5案例操作
1数据清理和准备的主要目的
·极端值会扭曲分析结果
·缺失值在采集数据时很难避免
·使用多元统计方法之前,需要确保数据集和前提假设匹配
2.极端数据的处理
·异常值的定义
·异常值的检测
·异常值的处理
2.1异常值的定义
·单变量异常值即在某个变量上的值明显高或者低。
·多变量极端值指在两个或多个变量上值的奇怪组合,使得该观测与其他观测明显不同。
存在一个有影响观测值的散点图存在一个没有影响观测值的散点图
A
x
2.1异常值的定义
异常值的来源:
1.过程性错误
2.异常事件
3.异常的观测
4.各变量值正常,组合起来很异常
1.单变量异常值的检测
1)根据标准分数判定
小样本标准分数大于等于2.5
大样本最高是4
2)盒式图
大于上四分位数1.5倍四分位距或小于下四分位数1.5倍四分位距
被划分为异常值。
处于1.5倍-3倍四分位矩之间的异常值为温和的异常值O
处于3倍四分位距之外的异常值为极端的异常值
2.2异常值的检测
2.2异常值的检测
2.双变量异常值的检测
散点图
☆
X19
2.2异常值的检测
3.多变量异常值的检测
马氏距离
D²=(x-J)Fv-1(k-i)
D²/df近似服从t分布,可以对其进行显著性检验,置信度为α=0.005或0.001,将落在置信区间外的观测点识别为潜在异常值。
小样本时临界值设为2.5,
大样本时临界值设为3或4
2.3异常值的处理
·如果异常值不属于总体,就删除
·如果异常值可代表总体的一部分,或不确定是否异常,尽量保留,转换变量降低极端值对分析结果的影响
3.缺失数据的处理
·缺失数据的定义和影响
·处理缺失数据的一般步骤
3.1缺失数据的定义及影响
□缺失数据是在一个数据集中,由于各种各样的原因而导致的个案在一个或多个变量上信息的缺失。
□缺失数据使样本量减少,会导致统计检验力的下降,此外,对于非随机的缺失机制,得到的统计结果可能是有偏的。
3.2处理缺失数据的一般步骤
(1)检查数据的缺失类型
(2)检查数据的缺失程度
(3)诊断数据的缺失机制
(4)选择插补方法
(1)检查数据的缺失类型
·设计上可忽略的缺失数据A.是请回答第2题
1.缺失是研究设计的一部分B.否请直接跳答第3题
2.抽样而不是总体
3.截断数据:用男飞行员的身高估计男性整体身高·设计上不可忽略的缺失数据
1.已知的情况:过程性因素导致的缺失。比如数据录入错误,无效编码(用户定义缺失值);数据公开受限;没有完成问卷;被试选取失误(生病等)等。
2.未知的情况:直接由被试的原因导致的。比如被试拒绝回答某些题目(如收入、有争议的话题等敏感问题);被试没有足够的知识回答问题等。
个案编号
V1
V2
V3
V4
个案缺失情况
个数
比例(%)
1
5
3
4
1
0
0
2
1
2
3
1
25
3
2
4
2
50
4
3
3
4
2
0
0
5
1
3
5
1
25
变量缺失情况
总的缺失情况
个数
2
1
1
0
个数
4
比例(%)
40
20
20
0
比例(%)
20%
(2)检查数据的缺失程度
①每个个案(case)在所有变量上的缺失比例;
②在每个变量上缺失数据的个案比例;
③在所有变量上都没有缺失的个案比例。
(2)检查数据的缺失程度
口缺失比例低于10%,使用任何一种缺失数据的处理方法,差异都不大,但不包括非随机缺失。
口对有过多缺失的个案或变量进行简单的处理
—删除;缺失比例15%以上的变量可以考虑删除,但缺失比例更高的(20%~30%),通常会进行补救
(2)检查数据的缺失程度
口注意:
①要确保在删除一个变量或个案后,总体上数据的缺失比例会明显减小。
②通常会删除因变量有缺失的个案,避免造成因变量与自变量之间的关系虚假高估。
③删除一个变量时,确保数据中有可替代的变量,替代变量与被删变量具有高相关。
④考虑对删除前后的数据同时进行分析,其分析结果是否存在明显差异。
(3)诊断数据的缺失机制
口缺失值的模式
■完全
您可能关注的文档
- 江苏科技园呼叫中心项目10KV变配电安装工程施工组织设计.docx
- 江苏省2020年普通高考对口单招文化统考英语试题(Word版,含答案).docx
- 江苏省徐州市2023_2024学年高一数学上学期11月期中试题含解析.docx
- 江苏省医疗保险双通道药品使用申请表.docx
- 降低眼药水滴漏率品管圈ppt课件.pptx
- 搅拌站安全教育培训课件.pptx
- 教科版二年级上册科学全册教案.docx
- 教科版科学二年级下册第一单元《磁铁》大单元整体教学设计.docx
- 教师节主题班会课件PPT.pptx
- 教学课件 传感器与检测技术--俞云强.pptx
- 2025年珠宝首饰电商品牌品牌营销与品牌忠诚度研究报告.docx
- 2025年社区洗衣店智能化运营模式创新分析.docx
- 2025年珠宝首饰电商品牌品牌营销与市场趋势研究报告.docx
- 动漫IP产业链构建与虚拟偶像市场价值:2025年研究报告.docx
- 聚焦2025:天然气勘探开发技术装备国产化对产业链的影响研究报告.docx
- 2025年珠宝首饰电商品牌国际化营销策略研究报告.docx
- 新能源汽车电池材料项目产业链协同效应分析与可行性研究报告.docx
- 2025年珠宝首饰电商品牌国际化战略研究报告.docx
- 2025年康复医疗行业市场细分领域市场潜力评估白皮书.docx
- 2025年珠宝首饰电商品牌在品牌体验营销策略分析报告.docx
文档评论(0)