基于Python的儿童书籍数据爬取研究与应用.docx

基于Python的儿童书籍数据爬取研究与应用.docx

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGEII

基于Python的儿童书籍数据爬取研究与应用

摘要:在大数据时代,互联网是丰富的信息和重要的数据来源,而爬虫技术是广泛获取数据的一种手段。儿童是世界的未来,关注儿童的书籍是可以第一时间知道当前儿童书籍的文化导向与未来趋势,而电商网站提供了全面的大量书籍数据。本文首先是利用Python在爬虫方面丰富的库和扩展性的技术优势,先对电商网站上的童书有哪些信誉好的足球投注网站进行URL分析,遍历获取URL并通过MongoDB存储,再通过MongoDB获取到URL抓取动态网页数据。同时开启子线程进行广度遍历当前页面有效的URL链接,直到MongoDB中的URL数据全部遍历完成。本文中实现的分布式爬虫可以进行多台电脑共同抓取数据,能够并行抓取效率相对较高。该方案在思路和架构上优势明显,分布式的爬取,效率高,但是对数据库服务器要求也较高。

关键词:Python;爬虫;Mongo

Abstract:Intheeraofbigdata,theInternetisarichsourceofinformationandimportantdata,andcrawlertechnologyisameansofdataacquisition.Childrenarethefutureoftheworld,andchildrensbooksarethefirsttimetoknowtheculturalorientationandfuturetrendsofchildrensbooks,ande-commercesitesprovideacomprehensivevolumeofbookdata.Inthispaper,firstofall,usingPythonsrichlibraryandextensibilitytechnologyadvantage,URLanalysisofchildbooksearchoneCommercewebsiteisfirstcarriedout,URListraversed,andMongoDBisstored,andURLtocapturedynamicwebpagedatathroughURL.Atthesametime,openthesubthreadtoextendtheeffectiveURLlinkofthecurrentpageuntiltheURLdatainMongoDBistraversed.Thedistributedcrawlerimplementedinthispapercanfetchdatafrommultiplecomputers,andtheefficiencyofparallelcrawlingisrelativelyhigh.Theschemehasobviousadvantagesinthewayofthinkingandstructure,andtheefficiencyofdistributedcrawlingishigh,buttherequirementfordatabaseserverishigher.

Keywords:Python;Crawler;Mongo

目录

TOC\o1-3\h\z\u摘要 I

Abstract I

目录 II

1绪论 1

1.1背景 1

1.2意义 1

1.3常用爬虫技术 1

1.4研究目的 2

2相关技术介绍 2

2.1系统架构模式 2

2.2使用的开发语言 4

2.2.1Python 4

2.2.2MongoDB 4

3系统分析 5

3.1系统需求分析 5

3.2系统功能分析 5

3.2.1系统业务描述 5

3.2.2系统需求建模 6

3.2.3系统数据建模 7

3.2.4系统过程建模 8

4爬虫系统设计 9

4.1爬虫系统应用架构 9

4.2爬虫系统功能设计 10

4.3爬虫系统数据库设计 11

5爬虫系统实现 12

5.1爬虫功能实现 12

5.2URL有哪些信誉好的足球投注网站组件实现 14

5.

文档评论(0)

8d758 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档