Python网络爬虫技术 第7章 Scrapy爬虫.pdf

Python网络爬虫技术 第7章 Scrapy爬虫.pdf

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,成就未来 第7章 Scrapy爬虫 2022/2/9 目录 1 认识Scarpy 2 Scrapy爬取文本信息 3 定制中间件 4 小结 大数据挖掘专家 2 了解Scrapy爬虫框架  Scrapy是一个爬虫框架而非功能函数库,简单地说,它是一个半成品,可以帮助用户简单快速地部署一个 专业的网络爬虫。Scrapy爬虫框架主要由引擎(Engine)、调度器(Scheduler)、下载器( Downloader)、Spiders、Item Pipelines、下载器中间件(Downloader Middlewares)、Spider中 间件(Spider Middlewares)这7个组件构成。 大数据挖掘专家 3 了解Scrapy爬虫框架 1.引擎(Engine)  引擎负责控制数据流在系统所有组件中的流向,并在不同的条件时触发相对应的事件。这个组件相当于爬 虫的“大脑”,是整个爬虫的调度中心。 2.调度器(Scheduler)  调度器从引擎接受请求并将它们加入队列,以便之后引擎需要它们时提供给引擎。初始爬取的URL和后续 在网页中获取的待爬取的URL都将放入调度器中,等待爬取,同时调度器会自动去除重复的URL。如果特 定的URL不需要去重也可以通过设置实现,如post请求的URL。 大数据挖掘专家 4 了解Scrapy爬虫框架 3.下载器(Downloader)  下载器的主要功能是获取网页内容,提供给引擎和Spiders。 4.Spiders  Spiders是Scrapy用户编写用于分析响应,并提取Items或额外跟进的URL的一个类。每个 Spider负责处理一个(一些)特定网站。 大数据挖掘专家 5 了解Scrapy爬虫框架 5.Item Pipelines  Item Pipelines主要功能是处理被Spiders提取出来的Items。典型的处理有清理、验证及持久化(例如存 取到数据库中)。当网页被爬虫解析所需的数据存入Items后,将被发送到项目管道(Pipelines),并经 过几个特定的次序处理数据,最后存入本地文件或数据库 6.下载器中间件(Downloader Middlewares)  下载器中间件是一组在引擎及下载器之间的特定钩子(specific hook),主要功能是处理下载 器传递给引擎的响应(response)。下载器中间件提供了一个简便的机制,通过插入自定义代 码来扩展Scrapy功能。通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。 大数据挖掘专家 6 了解Scrapy爬虫框架 7.Spider中间件(Spider Middlewares)  Spider中间件是一组在引擎及Spiders之间的特定钩子 (specific hook),主要功能是处理Spiders的输入( 响应)和输出(Items及请求)。Spider中间件提供了 一个简便的机制,通过插入自定义代码来扩展Scrapy功 能。各组件之间的数据流向如图所示。 大数据挖掘专家

文档评论(0)

教育课件资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档