- 1、本文档共42页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
python-网络爬虫
传智播客 无崖子
1 网络爬虫是何物?
说到网络爬虫,然而它并不是一种爬虫~
而是一种可以在网上任意有哪些信誉好的足球投注网站的一个脚本程序。
有人说一定要解释网络爬虫到底是干毛用的。
尝试用了很多种解释,最终归纳为一句话
“你再也不必用鼠标一条一条从网页上拷贝信息!”
一个爬虫程序将会高效并且准确的从网上拿到你希望要到的所有信息,从而省去你的以下行
为
while(no_dead)
{
寻找网页
鼠标点击
ctrl-c;
crtl-v;
翻页;
}
当然网络爬虫的真正意义不仅如此,由于它可以自动提取网页信息,使他成为了有哪些信誉好的足球投注网站引擎从
万维网上下载网页的重要利器。
下面我们来介绍一下网络爬虫的正经定义。
网络爬虫 (又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定
的规则,自动地抓取万维网信息的程序或者脚本 。另外一些不常使用的名字还有蚂蚁、自
动索引、模拟程序或者蠕虫 。
以上定义来源于百度百科 ,凑合看吧~囧-_-!
网络爬虫(web Spider) ,Spider是蜘蛛的意思,实际上名字是很形象的,他们把互联网比喻
成一个蜘蛛网,那么所谓的这个spider就在网上爬来爬去。这个网络蜘蛛是通过网页的链接
地址来寻找网页的。
蜘蛛的主要行径 网页首页—读取网页内容—找到网页中其他的链接地址—其他网页的
首页—……
start
no
继续爬取 End
yes
读取网页内容
找到其他的链接地址
跳转改链接地址
这样的循环下去,直到将这个网站上所有的网页都吃光 (网页上所有的信息全部用蜘蛛得
到)。
如果你敢把互联网比喻成一个网站,一定会有那么一个网络蜘蛛能够可以把整个互联网的资
源全部吃光!!!
ok,那么显而易见,网络爬虫的基本操作就是抓取网页。网页地址就是一个叫URL的东西,
那么我们先要简单处理一下URL。
2 URL初步概念
2 URL初步概念
我们先来介绍一下浏览网页的基本过程。
比如我们在浏览器地址栏输入
整个过程大致会发生以下步骤
1. 本地浏览器(客户端) ——–请求——- 传智服务器(服务端)
2. 本地浏览器(客户端) ——-文件数据—- 传智服务器(服务端)
3. 本地浏览器(客户端) 进行解析文件数据并且展现。
——–请求——-
—-文件数据—-
进行解析文件数据并且展现。
那么实际上浏览器用的是一种叫html标记的语言来进行解析的。
html标记语言 /
ok,那么到底谁是URL呢,说了半天, http://www . 它!就是URL !没错,就
是它!
我们给浏览器输入的地址,实际上就是一个url(Uniform Resource Locator) 统一资源定位符 。
就是地址 啦,搞学术的人非得弄的很高端。
明明是高利贷,他们非得说成p2p,明明是算命的,他们非得说成分析师~
URL的一般格式是 protocol:// hostname[:port] / path / [;parameters][?query]#fragment
基本上是由三部分组成
1 协议(HTTP呀,FTP呀~~等等)
2 主机的IP地址(或者域名)
3 请求主机资源的具体地址 (目录,文件名等)
其中:
第一部分和第二部分用 “://” 分割
第二部分和第三部分用 “/” 分割
1://2/3 —– /channel/teacher.shtml#ac
下面看几个URL例子
/game
其中
协议http,
计算机域名,
请求目录game
/list.html
其中协议http,
计算机域名
文件list.html
网络爬
文档评论(0)