- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
离群值概述主要内容
一、离群值有关概念
我们在处理分析数据的时候,经常会碰到某些数据远远大于或小于其他数据,这些明显偏离的数据就是离群值,也叫奇异值、极端值。离群值指数据样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。离群值按显著性的程度分为歧离值和统计离群值。歧离值在检出水平下显著,但在剔除水平下不显著的离群值。统计离群值在剔除水平下统计检验为显著的离群值。检出水平(α)为检出离群值而指定的统计检验的显著性水平,和大多数检验一样,α一般为0.05。剔除水平(α*)为检出离群值是否高度离群而指定的统计检验的显著性水平。剔除水平α*的值应不超过检出水平α的值。除非根据GB/T4883-2008达成协议的各方另有约定,α*值应为0.01。
二、离群值产生的原因大致有两点:
1.总体固有变异的极端表现,这是真实而正常的数据,这第一类离群值是总体固有的变异性的极端表现,离群值与样本中其余观测值属于同一总体。离群值与样本中其余观测值属于同一总体。
2.由于试验条件和实验方法的偶然性,或观测、记录、计算时的失误所产生的结果,是一种非正常的、错误的数据,这些数据与其余观测值不属于同一总体。这第二类离群值是由于实验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,所产生的结果,这类离群值与样本中其余观测值不属于同一总体。对于离群值的判定通常可根据技术上或物理上的理由直接进行,对于离群值的判定通常可根据技术上或物理上的理由直接进行,例如当试验者已经知道试验偏离了规定的试验方法,或测试仪器发生问题等。当上述理由不明确时,可用GB/T4883-2008规定的方法。
由于数据的分布不同,判断离群值的方法也有所差别,在此只介绍国标GB/T4883-2008对于正态分布情况下的离群值判断方法。
三、离群值的三种情形
GB/T4883-2008在下述不同情形下判断样本中的离群值:
a)上侧情形:根据实际情况或以往经验,离群值都为高端值;
b)下侧情形:根据实际情况或以往经验,离群值都为低端值;
上侧情形和下侧情形简称单侧。
c)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。
四、离群值的判断
1.检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数超过了这个上限时,对此样本应作慎重的研究和处理。
2.单个离群值情形
a.依实际情况或以往经验选定,选定适宜的离群值检验规则;
b.确定适当的显著性水平;
c.根据显著性水平及样本量,确定检验的临界值;
d.由观测值计算相应统计计量的值,根据所得到值与临界值的比较结果作出判断。
3.判定多个离群值的检验规则
在允许检出离群值的个数大于1的情况下,重复使用单个离群值情形规定的检验规则进行检验。若没有检出离群值,则整个检验停止;若检出离群值,当检出的离群值总数超过上限时,检验停止,对此样本应慎重处理,否则,采用相同的检出水平和相同的规则,对除去已检出的离群值后余下的观测值继续检验。
五、离群值处理方式、规则
根据所采用的标准规定的方式及规则进行。
1.离群值处理方式
a)保留离群值,并用于后续数据处理;
b)在找到实际原因时修正离群值,否则予以保留;
c)剔除离群值,不追加观测值;
d)剔除离群值,并追加新的观测值或用适宜的插补值代替。
2.处理规则
对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问题的性质,作为处理离群值的依据。权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值的风险以确定实施下述三个规则之一:
a)若在技术上和物理上找到了产生离群值的原因,则应剔除或修正。若未找到产生它的物理上和技术上的原因,则不得剔除或进行修正。
b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修正统计离群值;在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检验它是否为统计离群值。若每次检出的离群值为统计离群值,则此离群值及在它前面检出的离群值(含歧离值)都应被剔除或修正。
c)检出的离群值(含歧离值)都应被剔除或进行修正。
3.备案
被剔除或修正的观测值及其理由应予记录,以备查询。
文档评论(0)