信息系统数据的缺失.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息系统数据的缺失

信息系统数据的插补方法和决策处理 报告提纲: §1:信息系统数据的缺失 数据缺失的原因: 数据缺失机制 缺值处理的重要性和复杂性 数据的插补 插补的方法 比较与总结 问题与挑战 §2:信息系统的决策处理 §1:信息系统数据的缺失 在各种实用的数据库或者信息管理系统里,数据属性缺失的情况经常发生且不可避免。因此在大多数情况下,信息系统是不完备的,或者说存在某种程度的不完备。 缺失值的插补是一个非常具有挑战性的任务,因为插补效果的好坏会极大的影响信息的可信度及决策的后续处理过程。如果丢失了大量信息,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。 一:数据缺失的原因: (1)有些信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。又如在申请表数据中,对某些问题的反映依赖于对其他问题的回答。 (2)有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了。 (3)有些对象的某个或某些属性是不可用的。也就是说,对于这个对象来说,该属性值是不存在的,如一个未婚者的配偶姓名、一个儿童的固定收入状况等。 (4)有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关的,或训练数据库的设计者并不在乎某个属性的取值(称为dont-care?value) (5)获取这些信息的代价太大。 (6)系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。 二: 数据缺失机制 在对缺失数据进行处理前,了解数据缺失的机制 和形式是十分必要的。将数据集中不含缺失值的 变量(属性)称为完全变量,数据集中含有缺失 值的变量称为不完全变量,Little?和?Rubin定义了 以下三种不同的数据缺失机制,这缺失的数据从 缺失的分布来讲的。 (1)完全随机缺失(Missing?Completely?at?Random,MCAR)。数据的缺失与不完全变量以及完全变量都是无关的。 (2)随机缺失(Missing?at?Random,MAR)。数据的缺失仅仅依赖于完全变量。 (3)非随机、不可忽略缺失(Not?Missing?at?Random,NMAR,or?nonignorable)。不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。 从缺失值的所属属性上讲,如果所有的缺失值都 是同一属性,那么这种缺失为单值缺失,如果缺失属于不同的属性,称为任意缺失,另外对于时间列类的数据,可能存在随着时间的缺失,这种的缺失称为单调缺失。 三:缺值处理的重要性和复杂性 数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,空值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。  数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。 四:数据的插补 数据插补就是给每一个缺失数据一 些替代值,如此得到“完全数据集”后,再使用完全数据统计分析方法分析数据并进行统计推断。 80年代以后,人们开始重视数据缺失问题,着力研究插补方法。迄今为 止,提出并发展了30多种的插补方法。在抽样调查中应用的主要是单一插补和多重插补。 五:插补的原因 可以允许应用标准的完全数据分析方法 能融合数据收集者的知识 数据缺失使数据结构复杂化,需要使用更复杂的统计工具进行分析,而插补可以缓解这一困难 能够防止删除不完全记录造成的信息丢失 在一些情形下,插补能够减少无回答偏倚 特别注意:插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布。 六:插补的方法 数据挖掘中常用的有以下几种补齐方法: (1)人工填写(filling?manually)  由于最了解数据的还是用户自己,因此这个方法产生数据偏离最小,可能是填充效果最好的一种。然而一般来说,该方法很费时,当数据规模很大、空值很多的时候,该方法是不可行的。? (2)特殊值插补(Treating?Missing?Attribute?values?as?Special?values)将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的概念,可能导致严重的数据偏离,一般不推荐使用。 (3)平均值插补(Mean/Mode?Completer)将信息表中的属性分为数值属性和非数值属性来分别

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档