大数据采集与预处理课件:实现简单数据采集.pptx

大数据采集与预处理课件:实现简单数据采集.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共75页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

实现简单数据采集——抓取业务网站页面数据;本章学习目标

了解网络爬虫的基本概念和道德法律

了解Python爬虫的工作过程

了解数据预处理的流程

掌握网络基础知识

了解并搭建基于的Python的爬虫环境

掌握Python爬虫库的安装及使用方法

掌握数据预处理工具的安装及使用方法;本章主要介绍用python爬虫实现网站页面爬取的实例,讲解了爬虫基础、爬虫会用到的库的安装和使用方法,还有一些基础的网络知识。;2.1任务描述;2.2爬虫基础;2.2.2爬虫的道德和法律;2.2.3Python爬虫的工作过程;一个完整的网络爬虫基础框架如图2-1所示。;2.3网络知识基础;2.3.1HTML;2.HTML页面基本结构

!DOCTYPEhtml表示这是一个文本类型的HTML文件。

html表示这是一个文本类型,并且遵守的是HTML规范和标准。

head表示页面的头部信息,用于描述页面的概要信息,如标题,语言,字符集等。

meta表示页面的元信息,即基本信息。它放在head标签之中,可以实现操作网页特定内容,例如,是否清除页面缓存,还可以给有哪些信誉好的足球投注网站引擎提供有哪些信誉好的足球投注网站支持等。

title表示页面的标题。

body表示页面的主体内容。浏览器的显示区域就是body的工作范围。body可以被看作为一个容器,里面可以包含其他标签。;3.一个HTML实例

首先,编写一个文本文件的网页内容,如图2-2所示。;然后,浏览器渲染的效果。如图2-3所示。;2.3.2URI和URL;URL(UniformResourceLocator,统一资源定位符)是一种具体的URI,即URL可以用来标识一个资源,而且还指明了如何定位这个资源。URL是对互联网上可得到资源的位置和访问方法的一种简洁表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。图2-4所示为一个URL,其各个组成部分的含义如下:http表示使用的网络协议;hostname是解析后指向的IP地址;port表示程序指定的端口号;/CSS是需要访问的文件路径;?后面跟传递的参数;#表示指定的页面位置。;2.3.3HTTP;图2-5HTTP交互内容;2.3.4Request和Response;图2-6Request和Response交互;Request是指通过客户端浏览器向服务器发起信息请求的内容。通过把需要请求的具体内容按照特定的网络协议进行编码,包括浏览器的信息、HTTP的状态参数以及客户端的Cookie。因此,服务器收到Request之后就可以清楚地知道是谁在请求数据、它有没有请求过数据、对应客户端的Session是否有内容,以及应该返回哪些数据。

Response,即“响应”,是指通过服务器向客户端返回数据的响应。服务器在收到客户端请求之后,根据客户端提供的需求和状态,立刻生成对应的页面信息和Cookie,并返回给客户端。;以下是访问业务网站首页的过程中Request和Response的交互信息,如图2-7所示。;2.4requests库的安装及使用;在PyCharm中,依次完成如下操作:

1)在PyCharm中执行“File”→“Settings”菜单命令,如图2-9a所示。

2)弹出“Settings”对话框,在左侧窗格中选择“Project:pycharmprojects”下的“ProjectInterpreter”选项,然后单击右上角的“+”,如图2-9b所示。

3)在有哪些信誉好的足球投注网站文本框中输入“requests”,单击左边列表中出现的“requests”,然后单击下方的“InstallPackage”按钮。如图2-9c所示。;a)选择项目设置;c)安装requests;2.4.3requests库的基本用法;headers:设置头部,字典类型,如:{‘user-agent’:‘my-app/0.0.1’}(模拟浏览器进行访问)

cookies:设置cookie,字典类型,如:{“key”:“value”}

auth:元组格式的数据

files:字典类型,传输文件

timeout:设定超时时间,秒为单位

proxies:设置代理,字典类型,如:{“http”:“0:8080“}

allow_redirects:True//False,默认为True,重定向开关

stream:True/False,默认为True,获取内容立即下载开关

verify:Tru

您可能关注的文档

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档