0923S06017-大数据采集与清洗实验.docxVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE3

ADDINCNKISM.UserStyle《大数据采集与清洗实验》课程教学大纲

(实验课程·2023版)

一、课程基本信息

课程号

0923S06017

开课单位

数学与信息科学学院

课程名称

(中文)大数据采集与清洗实验

(英文)ExperimentsofBigDataAcquisitionandCleaning

课程性质

选修

考核类型

考查

课程学分

1

课程学时

34

课程类别

专业拓展课

适用专业(类)

数据科学与大数据技术

二、课程描述及目标

(一)课程简介

《大数据采集与清洗实验》课程是数据科学与大数据技术专业的一门专业拓展课程,其作为理论课程《大数据采集与清洗》的配套实验课程,旨在通过实验操作与实践,使学生掌握大数据采集与清洗的基本技能和方法,能够独立完成大数据的采集、预处理和清洗工作。课程将围绕大数据实验环境的搭建、网络数据采集、分布式消息系统、日志采集系统、ETL工具以及数据清洗技术等内容展开,帮助学生深入理解大数据采集与清洗的流程和技术细节。

(二)教学目标

随着大数据时代的来临,数据采集与清洗技能已成为数据科学、大数据技术、计算机科学等相关专业学生必备的核心能力之一。本课程通过实验操作的方式,使学生能够在理论学习的基础上,进一步加深对大数据采集与清洗技术的理解与应用,为将来从事相关领域的工作奠定坚实的基础。

通过本课程,达到以下课程目标:

课程目标1:掌握大数据采集的基本原理和方法,了解常用的大数据采集工具和技术,具备使用分布式消息系统、日志采集系统等工具进行数据采集的能力;

课程目标2:熟悉大数据清洗的流程和技术细节,能够独立完成数据的预处理和清洗工作;

课程目标3:培养学生的团队协作能力,通过小组讨论、合作实验等方式,促进学生之间的交流与合作,共同解决问题。

课程目标4:通过实验操作,让学生深刻体会到大数据采集与清洗在实际应用中的价值,培养学生的责任感和使命感,培养学生的创新精神和实践能力,激发学生对大数据技术的兴趣和热情。

三、课程目标对毕业要求的支撑关系

毕业要求指标点

课程目标

1-2:计算机软件开发基础知识:掌握计算机科学与软件开发的基本理论和基础专业知识,具备常用软件及数据分析软件使用的相关知识,掌握常用软件开发语言,具备大数据环境下数据分析算法与软件系统的设计、开发与分析等相关知识。

课程目标1

课程目标2

课程目标4

2-3:具有大数据有哪些信誉好的足球投注网站、收集、清洗等基本数据处理能力,具备一定的大数据统计分析及深度挖掘能力;

课程目标1

课程目标2

3-2:终身学习意识及创新意识:具有团队协作精神,能够在多学科背景下的团队中承担个体、团队成员以及负责人的角色,具有终身学习意识;能用批判性思维去看待已有问题、观念、技术和方法,并勇于创新。

课程目标3

课程目标4

四、教学方式与方法

理论讲授:介绍大数据采集与清洗的基本原理和概念。

实践操作:通过实验环境,让学生动手搭建系统、采集数据、清洗数据等。

案例分析:通过分析实际案例,让学生了解大数据采集与清洗在实际应用中的价值。

小组讨论:鼓励学生分组讨论问题,分享实验心得,促进交流与学习。。

五、教学重点与难点

(一)教学重点

大数据实验环境的搭建与配置;网络数据采集技术的应用;分布式消息系统Kafka和日志采集系统Flume的使用;ETL工具Kettle的数据转换与加载;使用pandas进行数据清洗的方法与技巧。

(二)教学难点

如何根据实际需求选择合适的采集与清洗方法;分布式系统的配置与优化;复杂数据的清洗策略与算法实现。

六、实验内容、基本要求与学时分配

序号

实验项目名称

实验内容与要求

学时

类型

对应课程目标

1

熟悉MySQL和HDFS操作

(1)熟悉使用Python操作MySQL数据库的方法;

(2)熟练使用HDFS操作常用的Shell命令。

4

验证性

课程目标1

课程目标4

2

网络爬虫初级实践

(1)理解网络爬虫相关概念及执行流程;

(2)熟练使用requests库、bs4库中的常用方法;

(3)掌握独立编写爬虫程序并获取所需信息的能力。

6

验证性

课程目标1

课程目标2

课程目标3

课程目标4

3

熟悉Kafka的基本使用方法

(1)熟悉Kafka操作的常用命令;

(2)熟练使用Python编写Kafka的生产者消费者;

(3)熟练Kafka与MySQL的交互;

(4)熟练消费者订阅分区和手动提交偏移量的API。

6

验证性

课程目标1

课程目标3

课程目标4

4

熟悉Flume的基本使用方法

(1)了解并熟悉flume的功能

(2)掌握flume的使用方法,学会按要求编写相关配置文件

6

验证性

课程目标1

课程目标3

课程目标4

5

熟悉Kettle的基本使用方法

(1)理解kettle核

文档评论(0)

bigeng123 + 关注
实名认证
文档贡献者

知识杂货铺~

1亿VIP精品文档

相关文档