- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第五章数据预处理大数据管理与应用——主编:王刚副主编:刘婧、邵臻
当前,在各行各业中正不断累积海量的数据资源,受到采集方式、存储手段等各种因素的影响,实践中所收集到的原始数据信息往往容易出现数据缺失、解释性不足等问题,利用这些低质量的数据进行分析将会影响后续分析的有效性和合理性。而数据预处理的目标就是要以数据分析所要解决的问题为出发点,通过相应的预处理,从而产生高质量、满足分析需求的数据资源。在本章中您将理解数据预处理中数据质量的相关性质,掌握数据清洗方式和数据清洗方法,数据变化的相关策略,掌握数据集成及其他预处理方法。数据质量数据清洗数据变换数据集成其他预处理方法第五章数据预处理
01数据质量02数据清洗03数据变换04数据集成05其他预处理方法
在实际应用中,大型数据库和数据仓库往往容易出现不正确、不完整和不一致等情况。数据不正确的原因用于收集数据的设备出现了故障;在数据输入时,由于人或计算机的原因导致数据输入错误;用户在不希望提交个人信息时,故意向强制输入字段输入不正确的数值,这种情况通常被称为被掩盖的缺失数据。数据不完整的原因由于涉及个人隐私等原因有些属性无法获得,如销售事务数据中顾客的收入和年龄等信息;在输入记录时由于人为的疏漏或机器的故障使得数据不完整,这些不完整的数据需要进行重新构建。数据不一致的原因在我们采集的客户通讯录数据中,地址字段列出了邮政编码和城市名,但是有的邮政编码区域与响应的城市并不对应,导致这种原因的出现可能是人工输入该信息时颠倒了两个数字,或许是在手写体扫描时错读了一个数字。1.1准确性、完整性以及一致性
在工商业界,对数据质量的相关性要求是一个重要问题。类似的观点也出现在统计学和实验科学中,强调精心设计实验来收集与特定假设相关的数据。与测量和数据收集一样,许多数据质量问题与特定的应用和领域有关。例如,考虑构造一个模型,预测交通事故发生率。如果忽略了驾驶员的年龄和性别信息,并且这些信息不可以间接地通过其他属性得到,那么模型的精度可能就是有限的,在这种情况下,我们需要尽量采集全面的、相关的数据信息。此外,对某个公司的大型客户数据库来说,由于时间和统计的原因,顾客地址列表的正确性为80%,其他地址可能过时或不正确。当市场分析人员访问公司的数据库,获取顾客地址列表时,基于目标市场营销考虑,市场分析人员对该数据库的准确性满意度较高。而当销售经理访问该数据库时,由于地址的缺失和过时,对该数据库的满意度较低。有些数据收集后就开始老化,使用老化后的数据进行数据分析、数据挖掘,将会产生不同的分析结果。如果数据提供的是正在发生的现象或过程的快照,如顾客的购买行为或Web浏览模式,则快照只代表有限时间内的真实情况;如果数据已经过时,基于它的模型和模式也就已经过时,在这种情况下,我们需要考虑重新采集数据信息,及时对数据进行更新。1.2相关性和时效性
数据的可信性是指数据在适用性、准确性、完整性、及时性和有效性方面是否能满足用户的应用要求,反映出有多少数据是用户信赖的。如果把数据可信性定义得过窄,会使得人们感觉问题来自数据采入或者系统误差,而导致数据的可信性差。数据的可解释性反映数据是否容易理解,是在数据科学的“有用性”中至关重要的方面之一,它确保使用的数据与想要解决的问题保持一致。当某一数据库在某一时刻存在错误,恰巧该时刻销售部门使用了该数据库的数据,虽然数据库的错误在之后被及时修正,但之前的错误已经给销售部门造成困扰。1.3可信性和可解释性
全人工清洗这种清洗方式的特点是速度慢,准确度较高,一般应用于数据量较小的数据集中。全机器清洗这种清洗方式的优点是清洗完全自动化,将人从繁杂的逻辑任务中解脱出来,去完成更重要的事。人机同步清洗该方式不仅降低了编写程序的复杂度和难度,同时也不需要大量的人工操作但缺点是人必须要实时参与清洗过程。人机异步清洗这种清洗的原理与人机同步清洗基本一样,唯一的不同是在遇到程序不能处理的问题时,不直接要求人工参与,而是生成报告的形式记录下异常情况,然后继续进行清洗工作。2.1数据清洗的方式图5-1数据清洗原理
填补空缺值忽略元组:当缺少类标号时,通常采用忽略元组的方法。除非元组中空缺值的属性较多,否则忽略元组不是有效的方法。人工填写空缺值:该方法耗费时间,尤其是当数据集很大、缺少的数据很多时,该方法可能行不通。全局常量填充空缺值:用同一个常数替换空缺的属性值,该方法虽然简单,但可能得出有偏差甚至错误的数据挖掘结论,因此应谨慎使用。属性的平均值填充空缺值:计算某一属性的平均值,再用该平均值来进行填充。同类样本的平均值填补空缺值:使用与给定元组同一类的所有样本的平均值。用最可能的值填充空缺值:用回归分析或决策树归纳确定最有可能的值。最近邻方法填补空缺值:相互之间“接近”的
您可能关注的文档
- 阿姆斯特朗《市场营销学(第13版)》 课件 第 16 章 可持续营销:社会责任和伦理道德.pptx
- 大数据管理与应用 课件 第八章 数据聚类分析.pptx
- 大数据管理与应用 课件 -第二章 大数据管理与应用的数学基础.pptx
- 大数据管理与应用 课件 第九章 数据关联分析.pptx
- 大数据管理与应用 课件 第六章 数据回归分析.pptx
- 大数据管理与应用 课件 第七章 数据分类分析.pptx
- 大数据管理与应用 课件 第三章 大数据管理与应用的机器学习基础.pptx
- 大数据管理与应用 课件 第十二章 Web分析.pptx
- 大数据管理与应用 课件 第十六章 大数据管理与应用进展.pptx
- 大数据管理与应用 课件 第十三章 数据可视化.pptx
文档评论(0)