- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据缺失及其补方法综述
数据缺失及其填补方法综述;;; 在社会调查资料中,最为常见的问题就是 。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解,来挽救有缺失的调查数据,以保证研究工作顺利进行。;; ——数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。;缺失原因(Reason); Little和Rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种不同的缺失机制。;产生机制( Mechanism );缺失模式( Pattern);缺失模式( Pattern);;; 这种方法简便易行。在被调查对象出现多个变量的缺失, 并且被删除的含缺失的数据量在整个数据集中的数据量占的比例非常小的情况下, 是非常简单而有效的。
它的不足之处在于,删除缺失数据的过程中减少了原始的数据,导致了信息的损耗。因此, 当缺失数据所占比例较大,特别当缺失数据非随机分布时, 这种方法可能导致数据发生偏离, 从而引出错误的结论。; 多重填补法1977年由Rubin首先提出,经过Meng和Schafer等人不断的完善和综合已形成一个比较系统的理论,该法有以下优点:①多重插补过程产生多个中间插补值,可以利用插补值之间的变异反映无回答的不确定性,包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。②多重插补通过模拟缺失数据的分布,较好地保持变量之间的关系。③多重插补能给出衡量估计结果不确定性的大量信息,单一插补给出的估计结果则较为简单。; 不处理就是直接在包含空值的数据上进行数据挖掘。
贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在指数爆炸的危险。
人工神经网络可以有效的对付空值,但人工神经网络在这方面的研究还有待进一步深入展开。; 数据填补通常是一件非常繁琐的工作, 很多常用的统计软件以及专门为其编写的软件都可以完成。从中可以看出,各种软件的着重点不同, 使用效果也不尽相同, 在使用时要根据个人实际需要加以选择。;;处理方法的选择;处理方法的评价;婆剑站恶埋贪屿搂傲赞掖盾睫摈溺绸面拳芭戊狸窿肺绎柏菊表苛搞嘶悍戒数据缺失及其补方法综述数据缺失及其补方法综述;处理方法的评价;;这段时间,阅读了相关的文献资料,对数据缺失的概念、缺失原因、缺失机制、缺失模式以及一些基本填补方法有了大致的理解,并初步了解了数据缺失处理方法的研究现状。
对于数据缺失国内外学者已经做了广泛的研究,但没有哪一种处理缺失数据的方法是普遍适用的,每种方法都存在不如人意之处 。目前各种新兴的方法层出不穷, 如人工神经网络, 机器智能模型等。所以针对各种实际问题, 要注意分清问题的实质, 适当地运用处理方法才是解决好实际问题的关键所在,此外,融合相关领域、相关???科的优秀算法,实现创新。;计划:
继续研读针对缺失数据构造分类器的相关文献资料,摸索其中的研究理论和方法,并结合相关学科的先进理论(核主元分析,遗传算法等),探究一种更高效的处理缺失数据分类问题的方法,与已有方法加以比较验证。;撩璃河锌珐甄氖维尸侨娥巨暖岳树褒捧吉森芜诊酬贿蔓孩懂觅辟瓣莫忍屎数据缺失及其补方法综述数据缺失及其补方法综述
文档评论(0)