Python爬虫开发从入门到实战（微课版）全套PPT课件.pptx

下载文档

0
0
约 1093页
2024-09-14 发布于福建
举报
版权申诉
保障服务

Python爬虫开发从入门到实战（微课版）全套PPT课件.pptx

1、本文档共1093页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第1章绪论.pptx第2章Python基础.pptx第3章正则表达式与文件操作.pptx第4章简单的网页爬虫开发.pptx第5章高性能HTML内容解析.pptx第6章Python与数据库.pptx第7章异步加载与请求头.pptx第8章模拟登录与验证码.pptx第9章抓包与中间人爬虫.pptx第10章Android原生App爬虫.pptx第11章Scrapy.pptx第12章Scrapy高级应用.pptx

PythonCrawlerDevelopment极客学院J互联网+职业技能系列?Python爬虫开发从入门到实战（微课版）谢乾坤?著第1章绪论.pptx第2章Python基础.pptx第3章正则表达式与文件操作.pptx第4章简单的网页爬虫开发.pptx第5章高性能HTML内容解析.pptx第6章Python与数据库.pptx第7章异步加载与请求头.pptx第8章模拟登录与验证码.pptx第9章抓包与中间人爬虫.pptx第10章Android原生App爬虫.pptx第11章Scrapy.pptx第12章Scrapy高级应用.pptx第13章爬虫开发中的法律和道德问题.pptx

第1章绪论所谓爬虫，其本质是一种计算机程序，它的行为看起来就像是蜘蛛在网上面爬行一样，顺着互联网这个“网”，一条线一条线地“爬行”。所以爬虫在英文中又叫作“Spider”，正是蜘蛛这个单词。通过这一章的学习，你将会掌握如下知识。（1）爬虫是什么。（2）爬虫可以做什么。（3）爬虫开发中有哪些技术。

1.1爬虫数据爆炸有效获得数据

1.2爬虫可以做什么1.2.1收集数据爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。由于爬虫是一种程序，程序的运行速度极快，而且不会因为做重复的事情就感觉到疲劳，因此使用爬虫来获取大量的数据，就变得极其简单和快捷了。

请看图1-1和图1-2，这是起点中文网的“玄幻频道”和“奇幻频道”页面。图1-1起点中文网的“玄幻频道”页面

图1-2起点中文网的“奇幻频道”页面

图1-1和图1-2所示的这两个版面除了内容不一样外，其他地方完全一样。只要爬虫能爬取“玄幻频道”，那么就能爬取“奇幻频道”。假设要把这两个页面的内容都获取下来，如果人工来操作，就需要对两个页面进行复制及粘贴，做很多重复的工作。而如果使用爬虫，那么只需要开发“玄幻频道”的爬虫就能实现既能爬取“玄幻频道”又能爬取“奇幻频道”的目标。正是由于现在的网站大量使用了模板来生成页面，所以爬虫才能够有用武之地。

1.2.2尽职调查所谓的尽职调查，一般是指投资人在投资一个公司之前，需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作，是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去，尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后，要做尽职调查就方便很多了。

数据不会说谎，特别是数据量极大的数据，人工伪造的总会和自然生成的存在区别。而在以前，对于数据量极大的数据进行搜集是一件非常困难的事情，但现在有了爬虫的帮助，很多欺骗行为都会赤裸裸地暴露在阳光下。

1.2.3刷流量和秒杀刷流量是爬虫天然自带的功能。当爬虫访问了一个网站时，如果这个爬虫隐藏得很好，网站不能识别这一次访问来自于爬虫，那么就会把它当成正常访问。于是，爬虫就“不小心”地刷了网站的访问量。除了刷流量外，爬虫也可以参与各种秒杀活动，包括但不限于在各种电商网站上抢商品，抢优惠券，抢机票和火车票。

1.3爬虫开发技术爬虫的开发有两个层面。一个是“技”的层面，也就是各种语言和框架的使用。这种层面更像是软件文档，现在市面上大部分的爬虫书籍还停留在这个层面。而另一个层面是“术”的层面，遇到各种反爬虫问题时，应该如何突破，如何隐藏爬虫，如何模拟人的行为，以及遇到没有见过的反爬虫策略时，应该如何思考及如何使用爬虫爬取非网页内容等。在“术”的层面，框架和工具都不是问题，用任何框架甚至Python自带的模块都能够处理，“术”的层面更强调思想、流程和调度。

本书使用Python作为爬虫的开发语言。由于Python具有语法简单、入门容易等特点，现在已经成为众多领域的首选语言。由于Python的语法接近原生的英语语法，因此只要能看懂单词就能看懂Python代码，这使得Python学习者能够很容易地通过学习别人的代码得到提高。

爬虫的主要目的是获取网页内容并解析。只要能达到这个目的，用什么方法都没有问题。关于获取网页，本书主要介绍了Python的两个第三方模块，一个是requests，另一个是爬虫框架Scrapy。关于解析网页内容，本书主要介绍了3种方式——正则表达式、XPath和BeautifulSoup。两种网页获取方式和3种网页解析方式可以自由搭配，随意使用。

PythonCraw