网站大量收购独家精品文档,联系QQ:2885784924

数据清洗算法的究与应用.pdf

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据清洗算法的究与应用

摘 要 随着信息技术的毪速发展,组织的管理人员进行决策分析时对数据的依赖性越 来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境一数据 仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种质 量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响信息 服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓 库和数据挖掘领域,乃至网络数据处理的一个重要课题。 本文首先对数据清洗的知识进行了全面和详细的描述,介绍了数据清洗的概念、 意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准以及基 本流程进行了分析和总结。其中重点对属性清洗及重复记录清洗所用到的技术和各 种算法进行了深入的研究,并提出了相应的改进算法。 在属性清沈中,简单介绍了属性清沈的基本知识和方法,重点研究了如何应用 统计分析和人工智能的技术自动检测数据集中属性值的错误,并给出了在数据集上 的实验结果及结论。 在重复记录清洗中,首先介绍了重复记录清洗的相关知识和基本流程,然后分 别就流程中各个步骤所涉及的关键算法进行了深入的研究,并针对各步中算法的缺 陷进行了改进。主要包括:①预处理步骤中,改进的排序关键字对数据集排序的方法; ②重复记录检测步骤中,针对中文字段值的特点提出的基于编辑距离的字段匹配算 法和缩写发现算法;提出了利用有效权值和长度过滤的优化算法进行记录匹配,减 少重复记录的检测时问,提高算法的效率;③在数据库级上对重复记录进行聚类的 步骤中,针对传统的SNM方法的两个缺陷提出了改进的SNM算法,实验结果表明,改 进的SNM算法要优于传统的算法。 最后,为解决构建青岛市港务局数据仓库的过程中遇到的数据质量和数据清洗 问题,结合前面进行的研究工作设计了一个实验性的数据清洗工具。设计该工具的 目的是对这些数据进行数据清洗,同时对本文中提出的改进的算法的有效性进行检 验和验证。结果表明改进的算法有较好的效果,基本上能达到实际应用的要求。 在本文的结尾,对所做的工作进行了总结,并对未来数据清洗技术的研究方向 i差行了展望。 关键词: 数据清洗;属性清洗;重复记录清洗;字段匹配:编辑距离; 缩写发现 Abstract Withthe ofinformation rapiddevelopment technology,organizationalmanagers decisions.Onthefoundationof ondatamoreandmorewhen their depend making databasethere which decision datawarehouseCan analysis.Butduring appears support theconstructionofdata from datasourcesare intothe different warehouse,data inputted data exist data infalsedecisive warehouse,there problems,result may manyqualitative isa need outa andinfluent ofinformationservice.There to anabrsis

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档