- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
项目三scrapy框架爬虫
教案
课程名称:网络爬虫项目实践
课程类别:必修
适用专业:大数据技术类相关专业
总学时:64学时(其中理论28学时,实验36学时)
总学分:4.0学分
本章学时:3学时
材料清单
《网络爬虫项目实践》教材。
配套PPT。
引导性提问。
探究性问题。
拓展性问题。
教学目标与基本要求
教学目标
本项目分为三个任务,任务1通过当当网的爬取演示如何使用Scrapy的基本使用,任务2通过赶集网的登录演示Scrapy的模拟登录功能,任务3通过失信人信息爬取演示Scrapy爬取复杂网站的方法。
、基本要求
掌握使用Scrapy创建爬虫项目的方式
掌握Scrapy创建爬虫文件命令的使用
掌握使用Scrapy进行数据爬取的基本方法
掌握使用Scrapy模拟登录赶集网的方法
掌握将爬取结果存储到MySQL数据库的方法
掌握Ajax数据爬取方式
问题
引导性提问
引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。
Scrapy项目是由哪些主要文件和目录组成的?
Scrapy如何定义提取的结构化数据(Item)?
Scrapy如何编写爬虫(Spider)并从网页中提取Item?
探究性问题
探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。
Scrapy如何使用管道(Pipeline)来存储或处理提取到的Item?
Scrapy如何使用中间件(Middleware)来自定义下载或处理请求和响应?
Scrapy如何使用选择器(Selector)或BeautifulSoup来解析HTML或XML文档?
拓展性问题
拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。
Scrapy如何使用信号(Signal)来在爬虫的不同阶段执行自定义操作?
Scrapy如何使用扩展(Extension)来增加或修改Scrapy的核心功能?
Scrapy如何使用调度器(Scheduler)来控制请求的优先级或延迟?
主要知识点、重点与难点
主要知识点
Scrapy创建爬虫项目的方式
Scrapy常见命令的使用
Scrapy模拟登录的方式
Scrapy数据存储的方式
重点
Scrapy创建爬虫项目的方式
Scrapy常见命令的使用
Scrapy模拟登录的方式
Scrapy数据存储的方式
难点
Scrapy创建爬虫项目的方式
Scrapy常见命令的使用
Scrapy模拟登录的方式
Scrapy数据存储的方式
教学过程设计
理论教学过程
Scrapy项目是由一些主要文件和目录组成的,包括scrapy.cfg,items.py,pipelines.py,settings.py,spiders等。
Scrapy项目中定义了Item类,用来封装提取的结构化数据,类似于Python中的字典,但是提供了一些额外的保护减少错误。
Scrapy项目中编写了Spider类,用来定义爬虫的行为和逻辑,如起始URL,请求方式,解析规则等。
Scrapy项目中使用了Pipeline类,用来处理Spider提取到的Item,并进行后期处理(详细分析、过滤、存储等)。
Scrapy项目中使用了Middleware类,用来自定义下载或处理请求和响应,如设置代理、修改头部、重试等。
Scrapy项目中使用了Selector类,用来解析HTML或XML文档,支持XPath和CSS选择器两种语法。
Scrapy项目中使用了Engine类,用来负责Spider、ItemPipeline、Downloader、Scheduler之间的通讯,信号、数据传递等。
Scrapy项目中使用了Scheduler类,用来接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
Scrapy项目中使用了Downloader类,用来下载ScrapyEngine发送的所有Requests请求,并将其获取到的Responses交还给ScrapyEngine。
Scrapy项目中使用了Signal类,用来在爬虫的不同阶段执行自定义操作,如爬虫启动、关闭、异常等。
实验教学过程
创建Scrapy项目
商品数据爬取
商品数据处理
获取表单HashCode
获取验证码
定义数据模型
创建下载器中间件
教材与参考资料
教材
李程文,唐建生,冯欣悦.网络爬虫项目实践[M].西安:西安电子科技大学出版社.2023.
参考资料
您可能关注的文档
- 《通信工程概预算》课件_第一章 习题及参考答案.docx
- 《网络爬虫项目实践》课件_项目一:网页数据获取(教案).docx
- 《网络爬虫项目实践》课件_项目二:特殊网页数据获取(教案).docx
- 《通信工程概预算》课件_第二章 习题及参考答案.docx
- 《网络爬虫项目实践》课件_项目四:分布式爬虫(教案).docx
- 《通信工程概预算》课件_第六章 习题及参考答案 .docx
- 《通信工程概预算》课件_第四章 习题及参考答案.docx
- 《计算机图形学实用技术》课件_第1章 计算机图形学基础.pptx
- 《通信工程概预算》课件_第五章 习题及参考答案.docx
- 《计算机图形学实用技术》课件_第2章 图形与图像技术基础.pptx
- 25上半年2期套题班-行政职业能力测验(八).docx
- 公考讲义-2025年1月时政汇总.pdf
- 2025年省考逻辑填空1000 高频实词积累+刷题早读课 讲义.pdf
- 25上半年2期套题班-行政职业能力测验(九).docx
- 2025四川事业编FB综合岗考试-综合能力测试讲义-主观题基础,案例分析题,公文写作及文章写作题.pdf
- 25上半年2期套题班-行政职业能力测验(五).docx
- 2025申论多省联考刷题课真题资料-2025国考执法课程.doc
- 2025申论多省联考刷题课真题资料-2024江西执法课程.doc
- 25上半年2期套题班-行政职业能力测验(十).docx
- 2025申论多省联考刷题课真题资料-2024福建县乡课程.doc
最近下载
- 互联网+背景下陕西皮影艺术的传承与发展.docx
- 04 项目四 海洋平台建造方案选择与分段划分特点《海洋平台建造工艺》(船舶工程技术专业).ppt VIP
- 2024届广西南宁市高三一模考试英语试题(解析版).docx VIP
- PEP人教版六年级英语下册第四单元测试题含答案.docx VIP
- DB61T 443.1-2008 苹果气象灾害第1部分:花期冻害预警等级.pdf VIP
- DeepSeek从入门到精通.pptx
- 03 项目三 海洋平台构件加工《海洋平台建造工艺》(船舶工程技术专业).ppt
- 2024-2025学年初中地理八年级下册晋教版(2024)教学设计合集.docx
- 加速康复外科围手术期管理课件.pptx VIP
- 华文版六年级下册书法教案.doc
文档评论(0)