- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE3
ADDINCNKISM.UserStyle《大数据采集与清洗实验》课程教学大纲
(实验课程·2023版)
一、课程基本信息
课程号
0923S06017
开课单位
数学与信息科学学院
课程名称
(中文)大数据采集与清洗实验
(英文)ExperimentsofBigDataAcquisitionandCleaning
课程性质
选修
考核类型
考查
课程学分
1
课程学时
34
课程类别
专业拓展课
适用专业(类)
数据科学与大数据技术
二、课程描述及目标
(一)课程简介
《大数据采集与清洗实验》课程是数据科学与大数据技术专业的一门专业拓展课程,其作为理论课程《大数据采集与清洗》的配套实验课程,旨在通过实验操作与实践,使学生掌握大数据采集与清洗的基本技能和方法,能够独立完成大数据的采集、预处理和清洗工作。课程将围绕大数据实验环境的搭建、网络数据采集、分布式消息系统、日志采集系统、ETL工具以及数据清洗技术等内容展开,帮助学生深入理解大数据采集与清洗的流程和技术细节。
(二)教学目标
随着大数据时代的来临,数据采集与清洗技能已成为数据科学、大数据技术、计算机科学等相关专业学生必备的核心能力之一。本课程通过实验操作的方式,使学生能够在理论学习的基础上,进一步加深对大数据采集与清洗技术的理解与应用,为将来从事相关领域的工作奠定坚实的基础。
通过本课程,达到以下课程目标:
课程目标1:掌握大数据采集的基本原理和方法,了解常用的大数据采集工具和技术,具备使用分布式消息系统、日志采集系统等工具进行数据采集的能力;
课程目标2:熟悉大数据清洗的流程和技术细节,能够独立完成数据的预处理和清洗工作;
课程目标3:培养学生的团队协作能力,通过小组讨论、合作实验等方式,促进学生之间的交流与合作,共同解决问题。
课程目标4:通过实验操作,让学生深刻体会到大数据采集与清洗在实际应用中的价值,培养学生的责任感和使命感,培养学生的创新精神和实践能力,激发学生对大数据技术的兴趣和热情。
三、课程目标对毕业要求的支撑关系
毕业要求指标点
课程目标
1-2:计算机软件开发基础知识:掌握计算机科学与软件开发的基本理论和基础专业知识,具备常用软件及数据分析软件使用的相关知识,掌握常用软件开发语言,具备大数据环境下数据分析算法与软件系统的设计、开发与分析等相关知识。
课程目标1
课程目标2
课程目标4
2-3:具有大数据有哪些信誉好的足球投注网站、收集、清洗等基本数据处理能力,具备一定的大数据统计分析及深度挖掘能力;
课程目标1
课程目标2
3-2:终身学习意识及创新意识:具有团队协作精神,能够在多学科背景下的团队中承担个体、团队成员以及负责人的角色,具有终身学习意识;能用批判性思维去看待已有问题、观念、技术和方法,并勇于创新。
课程目标3
课程目标4
四、教学方式与方法
理论讲授:介绍大数据采集与清洗的基本原理和概念。
实践操作:通过实验环境,让学生动手搭建系统、采集数据、清洗数据等。
案例分析:通过分析实际案例,让学生了解大数据采集与清洗在实际应用中的价值。
小组讨论:鼓励学生分组讨论问题,分享实验心得,促进交流与学习。。
五、教学重点与难点
(一)教学重点
大数据实验环境的搭建与配置;网络数据采集技术的应用;分布式消息系统Kafka和日志采集系统Flume的使用;ETL工具Kettle的数据转换与加载;使用pandas进行数据清洗的方法与技巧。
(二)教学难点
如何根据实际需求选择合适的采集与清洗方法;分布式系统的配置与优化;复杂数据的清洗策略与算法实现。
六、实验内容、基本要求与学时分配
序号
实验项目名称
实验内容与要求
学时
类型
对应课程目标
1
熟悉MySQL和HDFS操作
(1)熟悉使用Python操作MySQL数据库的方法;
(2)熟练使用HDFS操作常用的Shell命令。
4
验证性
课程目标1
课程目标4
2
网络爬虫初级实践
(1)理解网络爬虫相关概念及执行流程;
(2)熟练使用requests库、bs4库中的常用方法;
(3)掌握独立编写爬虫程序并获取所需信息的能力。
6
验证性
课程目标1
课程目标2
课程目标3
课程目标4
3
熟悉Kafka的基本使用方法
(1)熟悉Kafka操作的常用命令;
(2)熟练使用Python编写Kafka的生产者消费者;
(3)熟练Kafka与MySQL的交互;
(4)熟练消费者订阅分区和手动提交偏移量的API。
6
验证性
课程目标1
课程目标3
课程目标4
4
熟悉Flume的基本使用方法
(1)了解并熟悉flume的功能
(2)掌握flume的使用方法,学会按要求编写相关配置文件
6
验证性
课程目标1
课程目标3
课程目标4
5
熟悉Kettle的基本使用方法
(1)理解kettle核
您可能关注的文档
- 0923D06006-数据结构实验.docx
- 0923D06013-矩阵理论与数据分析实验.docx
- 0923D06017-Java程序设计实验.docx
- 0923D06018-Java程序设计课程设计.docx
- 0923D06019-数据统计分析基础.docx
- 0923D07001-微分几何-2023版人才培养方案课程教学大纲.docx
- 0923D07002-复变函数-2023版人才培养方案课程教学大纲.docx
- 0923D07007-数学模型-2023版人才培养方案教学大纲.docx
- 0923D07009-凸分析-2023版人才培养方案课程教学大纲.docx
- 0923D07010-矩阵论-2023版人才培养方案课程教学大纲.docx
文档评论(0)