网站大量收购闲置独家精品文档,联系QQ:2885784924

数据清洗综述.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据清洗研究综述 随着信息处理技术的不断发展, 各行各业已建立了很多计算机信息系统, 积累了大量的数据。 为了使数据能够有效地支持组织的日常运作和决策, 要求数据可靠无误, 能够准确地反映现 实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如 OLAP、数据挖掘等有 效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏” ,究其原因,一是缺乏有效的数 据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数 据间的不一致等, 导致现有的数据中存在这样或那样的脏数据。 它们主要表现为: 拼写问题、 打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示 (重复 ) 、不遵循引用完 整性等。 数据清洗 (Data Cleaning,Data Cleansing 或者 Data Scrubbing)的目的是检测数据中存在的错误 和不一致,剔除或者改正它们,以提高数据的质量 [1] 。 1 数据清洗国内外研究现状 数据清洗主要在数据仓库、数据库知识发现 (也称数据挖掘 )和总体数据质量管理这 3 个领域 研究较多。 在数据仓库研究和应用领域, 数据清洗处理是构建数据仓库的第一步, 由于数据 量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。 1.1 国外研究现状 国外对数据清洗的研究最早出现在美国,是从对全美的社会保险号错误的纠正开始 [2] 。美 国信息业和商业的发展,极大地刺激了对数据清洗技术的研究,主要集中在以下 4 个方面。 (1)检测并消除数据异常 采用统计方法来检测数值型属性, 计算字段值的均值和标准差, 考虑每个字段的置信区间来 识别异常字段和记录。 将数据挖掘方法引入数据清理, 如聚类方法用于检测异常记录、 模型 方法发现不符合现有模式的异常记录、 关联规则方法发现数据集中不符合具有高置信度和支 持度规则的异常数据。 (2)检测并消除近似重复记录 即对重复记录进行清洗。 消除数据集中的近似重复记录问题是目前数据清洗领域中研究最多 的内容。为了从数据集中消除重复记录,首要的问题就是如何判断两条记录是否近似重复。 (3)数据的集成 在数据仓库应用中, 数据清洗首先必须考虑数据集成, 主要是将数据源中的结构和数据映射 到目标结构与域中。在这方面已经开展了大量的研究工作。 (4)特定领域的数据清洗 不少数据清洗方案和算法都是针对特定应用问题的, 只适用于较小的范围。 通用的、 与应用 领域无关的算法和方案较少。 近年来, 国外的数据清洗技术发展得很快, 从市场上存在的数据清洗软件可以看出, 其中包 括商业上的数据清洗软件,也有大学和研究机构开发的数据清洗软件。 1.2 国内研究现状 目前, 国内对数据清洗技术的研究还处于初级阶段。 直接针对数据清洗, 特别是针对中文数 据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比 较简单的阐述。 银行、 保险和证券等对客户数据的准确性要求很高的行业, 都在做各自的客 户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。 2 数据清洗的定义与对象 2.1 数据清洗定义 迄今为止,数据清洗还没有公认的定义,不同的应用领域对其有不同的解释。 (1)数据仓库领域中的数据清洗 在数据仓库领域, 数据清洗定义为清除错误

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档