《Python网络爬虫技术案例教程》PPT课件(共10单元)九单元分布式爬虫.pptxVIP

《Python网络爬虫技术案例教程》PPT课件(共10单元)九单元分布式爬虫.pptx

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式爬虫;本章导读;学习目标;;分布式爬虫是一个整体的框架,它通过多台计算机同时运行爬虫程序协同爬取数据,而协同爬取数据的前提是共享爬取队列,其架构如图9-1所示。; Python分布式爬虫通常使用Scrapy框架加上Redis数据库实现,通过scrapy-redis模块实现统一任务调度,Redis数据库则存储共享爬取队列。 本章以第8章中使用Scrapy框架编写的BaiduSpider项目为例,介绍在两台Windows计算机中实现Scrapy-Redis分布式爬虫的方法。 ;Redis是一个开源(BSD许可)的,支持网络,可基于内存亦可持久化的日志型Key-Value数据库。它支持多种类型的数据结构,如列表(lists)、集合(sets)和有序集合(sorted sets)等,处理速度快。;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;显示“Port Number and Firewall Exception”界面,直接使用默认端口号(6379),勾选“Add an exception to the Windows Firewall”复选框,以选择防火墙例外,从而保证外部设备可以正常访问Redis服务,单击“Next”按钮,如图9-7所示。;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;输入“set mykey hello”命令,按回车键,如果返回显示“OK”,表示成功保存一个键值;输入“get mykey”命令,按回车键,可读取键值(此处显示“hello”),如图9-11所示。;Python提供redis-py库用于连接Redis数据库。redis-py库不是Python内置的标准库,使用之前需要安装,安装方法与requests库的安装类似(请参考2.3.2节),此处不再赘述。;当使用scrapy_redis实现分布式爬虫时,需要将spider脚本中的类继承修改为scrapy_redis.spiders.RedisSpider,同时设置初始URL列表在Redis数据库中的键值为“BaiduSpider:start_urls”,故按如下修改news.py文件。;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.2 Scrapy-Redis分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;9.3 使用Scrapyd部署分布式爬虫;THANK YOU

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档