网站大量收购独家精品文档,联系QQ:2885784924

【《基于Python的分布式爬虫探究7800字(论文)》】 .pdf

【《基于Python的分布式爬虫探究7800字(论文)》】 .pdf

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于Python的分布式爬虫研究

摘要

在这个互联网飞速发展的时代下,随着互联网服务规模的不断增长以及当代

发式的信息规模,与之相关的数据服务也随其增长,只靠单机的集中式处理的

能力是很难满足当代庞大的数据源采集需求。国内外互联网的使用人数在当代的

互联网发展下只多不少,互联网的数据也是随其在不断扩大,单纯靠以前的收集

方式很难去高效的完成数据采集,那么数据的采集技术必然要随其发展,所以在

这样的需求下便产生了分布式的网络数据采集技术,基于分布式的网络爬虫是由

多个可以并行爬取所需内容的爬虫组成,这样的系统兼备了良好的可扩展性,这些

爬虫在数据检索上的优秀表现也受到了人们的喜爱。在这样的这样的互联网发展

环境下,文章将根据需求,设计并实现一个具有针对性的简便高效的分布式网络

爬虫。

基于上述研究,本文设计并且实现了一个分布式结构的爬虫。对现在流行的

分布式爬虫的相关技术基础上,对需求进行设计和分析,结合具体的代码展示了

分布式爬虫的设计细节,通过实验表明了分布式网络爬虫在爬取庞大数据时的优

点,并且最后进行技术总结和展望。

本文中设计并且实现的分布式爬虫系统,充分的利用了网络宽带和计算机硬

件系统,这样不但大大的提高了数据采集的速度,还降低了此系统的损耗。此外,

它增强了系统的可扩展性,可以适应更多类型的数据。

关键词:分布式爬虫,Python,Scrapy,Redis,MongoDB

目录

第1章绪论1

1.1系统研究背景及意义1

1.1.1系统研究背景1

1.1.2系统开发意义1

1.2研究方向与内容2

第2章相关工具和理论介绍2

2.1Python概述2

2.2Hadoop概述3

2.3Scrapy框架简介3

2.4Redis数据库4

2.5MongoDB数据库4

第3章系统需求分析5

3.1功能需求5

3.2用例图5

3.3架构示意图6

3.4功能架构划分7

3.5程序流程图

第4章数据库设计9

4.1数据库E-R图9

4.2数据库表及其结构10

第5章系统详细设计与实现11

5.1爬虫的设计与实现11

5.1.1爬取策略的设计的设计与实现11

5.1.2爬虫的具体实现12

5.1.3去重与增量爬取13

5.2爬虫防屏蔽的实现14

5.2.1伪装浏览器的实现14

5.2.2代理IP爬取的实现15

5.3数据处理16

5.3.1对象定义程序16

5.3.2数据处理程序16

5.3.4数据可视化程序1

第6章系统运行19

第7章系统测试20

7.1测试简介20

7.2测试结果21

参考文献23

第1章绪论

1.1系统研究背景及意义

1.1.1系统研究背景

这几年,中国互联网的发展状态已经到了稳中求快阶段,互联网已经全面参与了我

们生活的方方面面,在很多地方互联网已经给我们生活与工作带来了很多便利与高效。

现在的互联网发展给我们的社会的发展带来了极大推动力、极大的改善了人民生活的方

式,发式增长的网民数量给大数据的发展带来了空前绝后的机遇。如果想要更好地解

决这个需求矛盾,就要以解决怎样从越来越庞大的数据海洋里面极快的速度、极高的效

率和安全性中找到用户所需数据成为了数据收集引擎的主要实现的目标。

在不断庞大的数据源的现状下,想解决数据挖掘问题,单方面的依赖单机处理是几乎

不可能去完成的,即使是把单机的硬件水平提高到一定的档次,也不可能追赶的上信息

发展的速度。经过很多专家日日夜夜的苦心钻研,他们提出了一种新的数据检索技术,

那就是分布式检索技术。这个新技术发布之后,许多业内人士对这个持有高度关注,现

在几乎所以的有哪些信誉好的足球投注网站引擎都采用了这个技术,就比如著名的有哪些信誉好的足球投注网站引擎:“Google”和“百

度〃,这些有哪些信誉好的足球投注网站引擎采用的就是这种新的数据检索技术,采用分布式的

您可能关注的文档

文档评论(0)

文档定制 + 关注
实名认证
内容提供者

医务工作者,自由工作者

1亿VIP精品文档

相关文档