Python网络爬虫技术第7章 Scrapy爬虫.pdf

下载文档

113
0
约1.95万字
约 38页
2022-02-10 发布于甘肃
举报
版权申诉
保障服务

Python网络爬虫技术第7章 Scrapy爬虫.pdf

1、本文档共38页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据，成就未来第7章 Scrapy爬虫 2022/2/9 目录 1 认识Scarpy 2 Scrapy爬取文本信息 3 定制中间件 4 小结大数据挖掘专家 2 了解Scrapy爬虫框架  Scrapy是一个爬虫框架而非功能函数库，简单地说，它是一个半成品，可以帮助用户简单快速地部署一个专业的网络爬虫。Scrapy爬虫框架主要由引擎（Engine）、调度器（Scheduler）、下载器（ Downloader）、Spiders、Item Pipelines、下载器中间件（Downloader Middlewares）、Spider中间件（Spider Middlewares）这7个组件构成。大数据挖掘专家 3 了解Scrapy爬虫框架 1.引擎（Engine）  引擎负责控制数据流在系统所有组件中的流向，并在不同的条件时触发相对应的事件。这个组件相当于爬虫的“大脑”，是整个爬虫的调度中心。 2.调度器（Scheduler）  调度器从引擎接受请求并将它们加入队列，以便之后引擎需要它们时提供给引擎。初始爬取的URL和后续在网页中获取的待爬取的URL都将放入调度器中，等待爬取，同时调度器会自动去除重复的URL。如果特定的URL不需要去重也可以通过设置实现，如post请求的URL。大数据挖掘专家 4 了解Scrapy爬虫框架 3.下载器（Downloader）  下载器的主要功能是获取网页内容，提供给引擎和Spiders。 4.Spiders  Spiders是Scrapy用户编写用于分析响应，并提取Items或额外跟进的URL的一个类。每个 Spider负责处理一个（一些）特定网站。大数据挖掘专家 5 了解Scrapy爬虫框架 5.Item Pipelines  Item Pipelines主要功能是处理被Spiders提取出来的Items。典型的处理有清理、验证及持久化（例如存取到数据库中）。当网页被爬虫解析所需的数据存入Items后，将被发送到项目管道（Pipelines），并经过几个特定的次序处理数据，最后存入本地文件或数据库 6.下载器中间件（Downloader Middlewares）  下载器中间件是一组在引擎及下载器之间的特定钩子（specific hook），主要功能是处理下载器传递给引擎的响应（response）。下载器中间件提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。大数据挖掘专家 6 了解Scrapy爬虫框架 7.Spider中间件（Spider Middlewares）  Spider中间件是一组在引擎及Spiders之间的特定钩子（specific hook），主要功能是处理Spiders的输入（响应）和输出（Items及请求）。Spider中间件提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。各组件之间的数据流向如图所示。大数据挖掘专家

您可能关注的文档

文档评论（0）

教育课件资源 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python网络爬虫技术第7章 Scrapy爬虫.pdf