- 1、本文档共26页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
项目四
基于框架实现动态网页数据采集与存储2023年2月
目录Content1使用Scrapy框架完成新闻公告页面数据采集与存储
项目导言零Scrapy是Python的一个应用Twisted异步处理的第三方应用程序框架,用户只需要定制开发几个模块即可实现一个爬虫,用来快速爬取网站并从页面中抓取网页内容以及各种图片。
学习目标零知识目标了解Scrapy相关概念熟悉Scrapy框架的设置掌握文本解析与内容存储精通内存存储逻辑技能目标具备项目创建的能力具备使用Scrapy操作命令创建Scrapy项目的能力具备解析网页中文本的能力具备网页数据采集能力素养目标具有较好的团队精神具有高度的责任感具备很强的学习和沟通能力具有清晰思路、较强的逻辑思维能力
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹任务技能Scrapy简介及安装Scrapy简介、Scrapy安装、Scrapy项目结构、Scrapy项目构建流程Scrapy操作指令在操作系统的任何位置均可以使用的全局命令应用于Scrapy项目中的项目命令字段定义及Scrapy设置自定义字段、项目设置、通用参数设置文本解析XPath选择器、CSS选择器内容存储文件存储、管道存储
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹1Scrapy简介及安装Scrapy是Python的一个第三方应用程序框架,主要用于爬取网站并从页面中提取结构数据。(1)Scrapy简介
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹ItemPipeline管道,负责处理Spider中获取到的Item,并进行详细分析、过滤、存储等内容的后期处理。Spiders爬虫,主要用于对Response进行处理,从特定的网页中分析提取数据,并在获取Item字段需要的数据后,将网络地址提交给引擎,再次进入Scheduler。Scheduler即调度器,接收ScrapyEngine的Request请求,多个请求会在整理排序后,等待ScrapyEngine需要时返回给ScrapyEngine。ScrapyEngineScrapy引擎,能够进行系统数据流的处理、事务的触发等,完成Spiders、ItemPipeline、Downloader、Scheduler等模块之间数据的传输、信号的传递。Downloader下载器,通过ScrapyEngine的Requests请求下载网页内容,并返回包含网页内容的Response,然后由ScrapyEngine提交给Spiders进行处理。Scrapy框架
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹(2)Scrapy安装Scrapy属于Python的第三方框架,可以使用pip安装、wheel安装和源码安装等安装方式,并且在通过pip方式安装Scrapy时,会自动安装lxml、pyOpenSSL、Twisted、PyWin32等相关的依赖库。打开cmd命令窗口,输入“pipinstallscrapy”进入Python的交互式命令行,通过import引入Scrapy进行安装验证Step1Step2
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹(3)Scrapy项目结构
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹01030405060702items.py字段定义文件scrapy.cfg项目配置文件middlewares.py中间件设置文件spiders爬虫文件存储目录settings.py项目设置文件pipelines.py项目管道文件MySpider.py爬虫文件
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹(4)Scrapy项目构建流程通过Xpath或CSS选择器解析XML文档6文本解析在爬虫文件中,根据需求选择通用参数,爬取页面数据5通用参数设置4项目设置修改settings.py文件对项目名称、并发请求、爬取策略、项目管道等进行设置3爬虫文件创建通过genspider命令在spiders目录中创建爬虫文件2字段定义修改items.py文件代码,明确抓取的目标字段7修改pipelines.py代码,通过管道的设置实现爬取内容的存储数据存储1项目创建通过startproject命令创建爬虫项目
任务4-1:使用Scrapy框架完成新闻公告页面数据采集与存储壹2Scrapy操作指令全局命令命令描述-h查看可用命令的列表fetch使用Scrapydownloader提取的URLrunspider未创建项目的情况下,运行一个编写好的spider模块settings规定项目的设定值shell给定URL的一个交互式模块startproject用于创建
文档评论(0)