Python网络爬虫技术 第2章 网页前端基础.pptx

Python网络爬虫技术 第2章 网页前端基础.pptx

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 网页前端基础;;网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket。 套接字是socket的通常叫法,用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信。 Python中Socket库为操作系统的socket实现提供了一个Python接口。 ;socket库中整合了多种协议类型。 ;服务器端Socket函数:socket库中的服务器端函数仅供服务器使用。 ;客户端Socket函数:socket库中的客户端函数仅供客户端使用。 ;公共Socket函数:socket库中的公共函数即??在服务器端使用也可在客户端使用,为通用函数。 ;公共Socket函数:socket库中的公共函数即可在服务器端使用也可在客户端使用,为通用函数。 ;公共Socket函数:socket库中的公共函数即可在服务器端使用也可在客户端使用,为通用函数。 ;TCP连接由客户端发起,服务器对连接进行响应。 建立一个服务器,服务器进程需要绑定一个端口并监听来自其他客户端的连接。 若有客户端发起连接请求,服务器就与该客户端建立Socket连接,随后的通信就通过此Socket连接进行。 服务器依赖服务器地址,服务器端口,客户端地址,客户端端口这4项来唯一确定一个Socket连接。 ;建立服务器端的TCP连接,具体步骤如下。 在Python中创建一个基于IPv4和TCP协议的Socket。 绑定监听的地址和端口,地址使用本机地址“”或“local host”,使用大于1024的端口。 调用listen方法开始监听端口,传入的参数指定等待连接的最大数量,设定为5。 创建一个tcp函数,该函数在连接建立后,服务器端首先发出一条表示连接成功的消息,然后等待客户端数据,再加上欢迎信息发送给客户端。若客户端发送exit字符串,则直接关闭连接。 通过一个循环接受来自客户端的连接,使用accept函数等待并返回一个客户端的连接,每个连接都分配一个新线程来处理。;在服务器端TCP连接建立后,建立客户端TCP连接进行测试,具体步骤如下。 与服务器端的协议保持一致,也建立一个基于IPv4和TCP协议的Socket。 与服务器端建立连接,连接的地址与端口需与服务器端保持一致。 使用recv函数接受服务器提示信息,之后再使用send函数发送数据至服务器,可看到服务器返回的结果。;TCP建立的连接可靠,通信双方以流的形式互相传送数据。相对TCP协议,UDP则是面向无连接的协议。 使用UDP协议时,无需建立连接的过程,仅需知道对方的IP地址及端口号,便可直接发送数据包,但无法保证能顺利传达到。 虽然用UDP传输数据不可靠,但其传输速度比TCP快,对于不要求可靠到达的数据,就可以使用UDP协议。 UDP传输通常应用在通讯实时性要求更高于可靠性场景,例如网络游戏。;UDP连接与TCP连接类似,也分为服务器端和客户端,不同的是UDP连接无需调用listen方法,直接接受来自任何客户端的数据。 建立UDP连接,服务器端同样需要绑定地址与端口。 使用recvfrom方法返回数据及客户端的地址与端口。 当服务器收到数据后,直接调用sendto把数据用UDP发给客户端。;客户端使用UDP连接时同样需要先创建socket。 之后无需使用connect方法,直接用sendto方法发送数据至服务器建立UDP连接,服务器端同样需要绑定地址与端口。 UDP连接与TCP连接可同时使用同一端口互不冲突,两者使用的端口是独立绑定的。;;爬虫在爬取数据时将会作为客户端模拟整个HTTP通信过程,该过程也需要通过HTTP协议实现。HTTP请求过程如下。 由HTTP客户端向服务器发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP连接。 HTTP服务器从该端口监听客户端的请求。 一旦收到请求,服务器会向客户端返回一个状态,比如“HTTP/1.1 200 OK”,以及返回的响应内容,如请求的文件、错误消息、或其它信息。;在HTTP/1.1协议中共定义了8种方法(也叫“动作”)来以不同方式操作指定的资源,常用方法有GET、HEAD、POST等。;HTTP协议采用了请求/响应模型。 客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。 服务器以一个状态行作为响应,响应的内容包括协议的版本、响应状态、服务器信息、响应头部和响应数据。;客户端与服务器间的请求与响应的具体步骤如下。 连接Web服务器:由一个HTTP客户端发起连接,与Web服务器的HTTP端口(默认为80)建立一个TCP套接字连接。 发送HTTP请求:客户端经TCP套接字向Web服务器发送一个文本的请求报文。 服务器接受请求并返回HTTP响应:W

文档评论(0)

教育课件资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档