分布式爬虫设计实现分布式爬虫算法研究和系统框架设计.docx

分布式爬虫设计实现分布式爬虫算法研究和系统框架设计.docx

  1. 1、本文档共28页,其中可免费阅读9页,需付费200金币后方可阅读剩余内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

分布式爬虫设计实现分布式爬虫算法研究和系统框架设计

摘要

分布式爬虫(Distributedcrawler),是一种高效,快捷的爬虫。是把多台主机组合起来,共同完成一个爬取任务,从而达到大幅度提高爬取效率的目的。目前在现今的大数据时代中,因其并发性高,高效的特点而被广泛运用在各行各业中。

本次爬虫的设计所使用的编程语言是Python语言,其基于Scrapy-Redis应用框架。这个框架运用到了Redis哨兵核心选举算法,通过Redis哨兵节点实现和主数据节点的连接,并且监控redismaster是否正常运行和slave进程是否异常。数据库则选择使用非关联数据库MangoDB,通过

文档评论(0)

%%%%%%%%%%%%%%%%% + 关注
实名认证
内容提供者

#############################

1亿VIP精品文档

相关文档