- 1、本文档共32页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据清洗与可视化
数据质量01数据清洗02数据清洗流程03错误、异常数据04数据可视化05单击此处添加文本具体内容06目录CONTENTS
DataQuality数据质量问题代价高昂且普遍存在1.DQ问题每年花费数千亿美元。收入、信誉、客户损失2.解决数据质量问题通常是数据挖掘研究中最大的工作。数据挖掘项目中50%-80%的时间花在DQ上3.有助于简化业务运营数据库以提高运营效率(例如周期时间),降低成本,符合法律要求
根据高德纳集团的数据,糟糕的数据质量平均每年会给一家公司浪费820万美元的资源,以及运营效率低下、错过销售和未实现的新机会而造成的费用。此外,弗雷斯特的一项研究显示,只有12%的公司实际上使用数据驱动的智能来指导关键的业务功能和企业战略。这意味着88%的人正在忍受脏数据造成的浪费、低效率和机会丢失。
数据不是静态的,在数据收集和使用过程中流动数据收集数据交付数据存储数据集成数据检索数据挖掘、分析在所有这些阶段都可能会出现问题需要端到端的持续监控
有效性Validity准确性Accuracy完整性Completeness一致性Consistency均匀性Uniformity取决于数据收集、存储高维、描述性、纵向、流媒体、Web(抓取)、数字、文本数据
取决于应用(分发、集成、分析)业务运营,综合分析,预测客户关系。数据解释了解用于生成数据的所有规则数据适用性代理的使用缺少相关连数据IncreasedDQ?Increasedreliabilityandusability(directionallycorrect)
Validity数据符合已定义的业务规则或约束的程度。数据类型约束:特定列中的值必须是特定的数据类型的,例如,布尔值、数字、日期等。范围限制:通常,数字或日期应该在一定的范围内。强制约束:某些列不能为空。唯一约束:一个字段或一个字段的组合在一个数据集上必须是唯一的。设置-成员关系约束:一个列的值来自于一组离散的值。例如,一个人的性别可以是男性,也可以是女性。跨字段验证:跨多个字段的某些条件必须成立。例如,病人的出院日期不能早于入院日期。
Accuracy数据接近真实值的程度。定义所有可能的有效值允许很容易地出现无效值,但这并不意味着是准确的。一个有效的街道地址可能实际上并不存在。一个有效的人的眼睛颜色,比如蓝色,可能是有效的,但不是真的(不代表现实)。准确和精确precision的区别。说你生活在地球上,其实是准确的。但是,不精确。地球上哪里?说你住在某个特定的街道地址会更精确。
Completeness所有所需数据的已知程度。由于各种原因,会导致数据丢失。人们可以通过询问原始的数据来源来解决这个问题,比如重新检索。很有可能,要么给出不同的答案,要么很难再次找到。
Consistency数据在同一数据集中或跨多个数据集中的一致性的程度。当数据集中的两个值相互矛盾时,就会发生不一致。一个有效的年龄,比如10岁,可能与婚姻状况不匹配。客户记录在两个不同地址的两个不同表中。哪一个是真的?。
均匀性Uniformity使用相同的测量单位的比例。重量可以以磅或公斤为单位来记录下来。日期可能遵循美国格式或欧洲格式。货币有时以$表示,有时以¥表示。因此,数据必须被转换为一个单一的测量单位。
数据清洗大多数统计理论侧重于数据建模、预测和统计推断,而通常假定数据处于数据分析的正确状态。在实践中,数据分析师在做任何统计操作之前,会花大部分时间来准备数据。很少看到原始数据是正确的格式的,没有错误,完整的,并有分析所需的所有正确的标签和代码。数据清洗是将原始数据转换为可以进行分析的一致数据的过程。其目的是改进基于数据的统计报表的内容及其可靠性。
不正确或不一致的数据会导致错误的结论。因此,如何清理和理解数据会对分析结果的质量有很大的影响。事实上,仅仅因为得到了足够的高质量数据,一个简单的方法可以超过一个复杂的方法。高质量的数据胜过了花哨的模型/算法。
数据清洗(datacleaning)是从记录集、数据库表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除脏数据或粗数据
datacleaning清洗后,一个数据集应该与系统中其他类似的数据集保持一致。数据清洗不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。
数据清洗流程工作流程序列由三个步骤组成,旨在生成高质量的数据。检查:检测到意外、不正确和不一致的数据。清理:修复或删除所发现的异常。验证:清洗后,检查结果,验证其正确性。记录关于所做的更改和当前存储的数据的质量的报告。
Inspection检查检查数据是很耗时的,并且需要使用许多方
您可能关注的文档
- 智能交通大数据——综合交通数据科学技术及应用 课件 课程介绍.pptx
- 智能交通大数据——综合交通数据科学技术及应用 课件 认识数据.pptx
- 智能交通大数据——综合交通数据科学技术及应用 课件 绪论.pptx
- 人才座谈沙龙活动方案.docx
- 公司职工趣味活动方案.docx
- 家长入园体验活动方案.docx
- 暑假德育实践作业活动方案.docx
- 小学期中总结主持人发言稿.docx
- 快递驿站公司实习总结.docx
- 视觉营销设计实习总结.docx
- 安全生产考核奖惩制度3篇.doc
- 颅脑损伤病人的护理查房【优质公开课】精品PPT课件模板.pptx
- 二零二二年度德州继续教育公需科目《公共事务管理与服务能力》试题及答案.pdf
- 二零二二年度党风廉政建设知识竞赛题库(含答案).pdf
- 二零二二年度度枣庄市专业技术人员继续教育公需科目培训班互动题.pdf
- 二零二二年度儿童保健学试题库(含答案).pdf
- 二零二二年度第十九届中国东南地区数学奥林匹克竞赛高一试题(含答案).pdf
- 二零二二年度动物卫生监督题库(含答案).pdf
- 黑龙江省大庆市重点中学2023-2025学年高一下学期2月开学考试英语试题(含解析).docx
- 二零二二年度法检书记员招考《公基》测试题库(含答案).pdf
文档评论(0)