教案数据清洗与结构化存储揭示数据清洗.pdf

教案数据清洗与结构化存储揭示数据清洗.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
课名: 《大数据平台应用》 教师: 班级: 编写时间: 课题:项目 5 数据清洗与结构化存储 第 1 部分 揭示数据清洗 课次:第 14 次 教学目标及要求: (1)任务 1 揭示数据清洗(理解) (2 )任务 2 处理数据基本操作(熟练掌握) 教学重点: (1)任务 1 揭示数据清洗(理解) (2 )任务 2 处理数据基本操作(熟练掌握) 教学难点: (1)任务 2 处理数据基本操作(熟练掌握) 思政主题: 教学步骤及内容 : 旁批栏: 1.课程引入 2.本次课学习内容、重难点及学习要求介绍 (1)任务 1 揭示数据清洗(理解) (2)任务 2 处理数据基本操作(熟练掌握) 3.本次课的教学内容 (1)任务 1 揭示数据清洗(理解) 目的: 为了保证数据的高价值性我们需要进行数据清洗使数据可以实现 (1)准确性:数据必须准确的反映现实事务,不能存在造假信息。 (2)完整性:数据必须不存在丢失、篡改等。 (3)一致性:数据存在多种副本的情况下,保证多个副本的内容完全 相同。比如不同信息系统里对统一个人的身份证信息必须是相同。 (4)有效性:描述数据是否满足用户定义的条件或者范围。比如:人 的年龄不存在负值等。 (5)唯一性:数据不能存在重复的记录。 在清洗数据之前由于数据大量一般采集的数据往往是 (1)重复数据 (2)字段名和结构前后不一 - 1 - (3)数据损坏 (4)原始数据来源各不相同格式千奇百怪 (5)数据不完整(某些记录的某些字段缺失) (6)噪声(被测量的变量的随机误差或方差) 数据清洗是进行数据分析的前提 重要性 举个烹饪的例子: 现在有人交给你一个购物篮,里面装满了你从未见过的各种各样的漂 亮,每一样都产自有机农场, 并在必威体育精装版鲜的时候经过人工精挑细选出来。 多 汁的西红柿,生脆的莴苣, 油亮的胡椒。你一定激动地想马上开启烹饪之旅, 可再看看周围, 里肮脏不堪, 锅碗瓢盆上尽是油污, 还沾着大块叫不出名的 东西。至于厨具, 只有一把锈迹斑斑的切刀和一块湿抹布。 水槽也是破破烂 烂的。而恰恰就在此时, 你发现从看似鲜美的莴苣下面爬出了一只甲虫。 即 使是实习厨师也不可能在这样的地方烹饪。往轻了说,无外乎是暴殄天物, 浪费了一篮子精美的食材。如果严重点儿讲,这会使人致病。再说了,在这 种地方烹饪根本毫无乐趣可言, 也许全天的时间都得浪费在用生锈的破刀切 菜上面。 和厨房的道理一样, 事先花费些时间清洗和准备好数据科学工作区、 工 具和原始数据, 都是值得的。 数据清洗是进行数据分析的前提, 数据清洗的 之后数据的质量在很大程度上对后期的分析结果产生影响。 比如如果数据的 不准确不完整, 可能导致公司决策出现重大偏差, 对公司可能是一个毁灭性 的打击。 数据清洗的处理我们使用 Pandas 框架, Pandas 是基于 NumPy的一种 工具,该工具是为了解决数据分析任务而创建的。 Pandas 纳入了大量库和 一些标准的数据模型,提供了高效地操作大型数据集所需的工具。 pandas 提供了

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档