Python爬虫开发从入门到实战(微课版)全套PPT课件.pptx

Python爬虫开发从入门到实战(微课版)全套PPT课件.pptx

  1. 1、本文档共1093页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章绪论.pptx第2章Python基础.pptx第3章正则表达式与文件操作.pptx第4章简单的网页爬虫开发.pptx第5章高性能HTML内容解析.pptx第6章Python与数据库.pptx第7章异步加载与请求头.pptx第8章模拟登录与验证码.pptx第9章抓包与中间人爬虫.pptx第10章Android原生App爬虫.pptx第11章Scrapy.pptx第12章Scrapy高级应用.pptx

PythonCrawlerDevelopment极客学院J互联网+职业技能系列?Python爬虫开发从入门到实战(微课版)谢乾坤?著第1章绪论.pptx第2章Python基础.pptx第3章正则表达式与文件操作.pptx第4章简单的网页爬虫开发.pptx第5章高性能HTML内容解析.pptx第6章Python与数据库.pptx第7章异步加载与请求头.pptx第8章模拟登录与验证码.pptx第9章抓包与中间人爬虫.pptx第10章Android原生App爬虫.pptx第11章Scrapy.pptx第12章Scrapy高级应用.pptx第13章爬虫开发中的法律和道德问题.pptx

第1章绪论所谓爬虫,其本质是一种计算机程序,它的行为看起来就像是蜘蛛在网上面爬行一样,顺着互联网这个“网”,一条线一条线地“爬行”。所以爬虫在英文中又叫作“Spider”,正是蜘蛛这个单词。通过这一章的学习,你将会掌握如下知识。(1)爬虫是什么。(2)爬虫可以做什么。(3)爬虫开发中有哪些技术。

1.1爬虫数据爆炸有效获得数据

1.2爬虫可以做什么1.2.1收集数据爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。由于爬虫是一种程序,程序的运行速度极快,而且不会因为做重复的事情就感觉到疲劳,因此使用爬虫来获取大量的数据,就变得极其简单和快捷了。

请看图1-1和图1-2,这是起点中文网的“玄幻频道”和“奇幻频道”页面。图1-1起点中文网的“玄幻频道”页面

图1-2起点中文网的“奇幻频道”页面

图1-1和图1-2所示的这两个版面除了内容不一样外,其他地方完全一样。只要爬虫能爬取“玄幻频道”,那么就能爬取“奇幻频道”。假设要把这两个页面的内容都获取下来,如果人工来操作,就需要对两个页面进行复制及粘贴,做很多重复的工作。而如果使用爬虫,那么只需要开发“玄幻频道”的爬虫就能实现既能爬取“玄幻频道”又能爬取“奇幻频道”的目标。正是由于现在的网站大量使用了模板来生成页面,所以爬虫才能够有用武之地。

1.2.2尽职调查所谓的尽职调查,一般是指投资人在投资一个公司之前,需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作,是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去,尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后,要做尽职调查就方便很多了。

数据不会说谎,特别是数据量极大的数据,人工伪造的总会和自然生成的存在区别。而在以前,对于数据量极大的数据进行搜集是一件非常困难的事情,但现在有了爬虫的帮助,很多欺骗行为都会赤裸裸地暴露在阳光下。

1.2.3刷流量和秒杀刷流量是爬虫天然自带的功能。当爬虫访问了一个网站时,如果这个爬虫隐藏得很好,网站不能识别这一次访问来自于爬虫,那么就会把它当成正常访问。于是,爬虫就“不小心”地刷了网站的访问量。除了刷流量外,爬虫也可以参与各种秒杀活动,包括但不限于在各种电商网站上抢商品,抢优惠券,抢机票和火车票。

1.3爬虫开发技术爬虫的开发有两个层面。一个是“技”的层面,也就是各种语言和框架的使用。这种层面更像是软件文档,现在市面上大部分的爬虫书籍还停留在这个层面。而另一个层面是“术”的层面,遇到各种反爬虫问题时,应该如何突破,如何隐藏爬虫,如何模拟人的行为,以及遇到没有见过的反爬虫策略时,应该如何思考及如何使用爬虫爬取非网页内容等。在“术”的层面,框架和工具都不是问题,用任何框架甚至Python自带的模块都能够处理,“术”的层面更强调思想、流程和调度。

本书使用Python作为爬虫的开发语言。由于Python具有语法简单、入门容易等特点,现在已经成为众多领域的首选语言。由于Python的语法接近原生的英语语法,因此只要能看懂单词就能看懂Python代码,这使得Python学习者能够很容易地通过学习别人的代码得到提高。

爬虫的主要目的是获取网页内容并解析。只要能达到这个目的,用什么方法都没有问题。关于获取网页,本书主要介绍了Python的两个第三方模块,一个是requests,另一个是爬虫框架Scrapy。关于解析网页内容,本书主要介绍了3种方式——正则表达式、XPath和BeautifulSoup。两种网页获取方式和3种网页解析方式可以自由搭配,随意使用。

PythonCraw

文档评论(0)

153****9532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101234030000022

1亿VIP精品文档

相关文档