电商数据分析-数据采集方法.pptx

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据采集方法3.1数据采集的基础知识3.2数据采集CONTENTS爬虫权限申明HTML请求与响应URL构成原理静态数据采集动态数据采集网站的构成261543PART ONE爬虫权限申明爬虫权限申明 在开展数据采集工作前需要了解数据采集的基础知识,只有了解了数据采集的知识才能保证数据采集工作的正常开展。 大多数网站都有一个名为robots.txt的文档,用于判断是否可以禁止访客获取数据。对于没有设定robots.txt的网站,可以通过网络爬虫获取没有加密口令的数据,也就是该网站所有页面数据都可以爬取。 以淘宝网为例,浏览器访问/robots.txt,淘宝网允许了百度蜘蛛爬取其网站目录,而对于没有指定的用户,则是全部禁止爬取,代码如下。User-Agent: BaiduspiderDisallow: /PART TWOURL构成原理URL构成原理 统一资源定位符(Uniform Resource Locator,URL),是用于完整地描述Internet网页和其他资源地址的一种标识方法。互联网上每个文件都有其对应的唯一URL。例:基本格式如下。scheme://host[:port#]/path/…/[?query-string][#anchor]Protocol(协议)指定使用的传输协议,数据采集中最常遇到的是HTTP/HTTPS协议。Hostname(主机名)是指存放资源的服务器的域名系统(DNS) 主机名或 IP 地址。Port(端口号)各种传输协议都有默认的端口号,如http协议的默认端口为80。如果输入时省略,则使用默认端口号。Path(路径)由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。Parameters(参数)这是用于指定特殊参数的可选项。Query(查询)可选,用于给动态网页传递参数,可有多个参数,用“”符号隔开,每个参数的名和值用“=”符号隔开。Fragment(信息片断)用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。其中scheme:协议(如http,https,ftp);host:服务器的IP地址或者域名;port#:服务器的端口(如果是走协议默认端口,缺省端口80);path:访问资源的路径;query-string:参数,发送给http服务器的数据;anchor:锚(跳转到网页的指定锚点位置)。PART THREE网站的构成HTML 网页由3个部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JavaScript(活动脚本语言)。用人体来比喻的话,HTML是人的骨架,并且定义了人的嘴巴、眼睛、耳朵等器官要长在哪里。CSS是人的外观细节,如嘴巴长什么样子,眼睛是双眼皮还是单眼皮,是大眼睛还是小眼睛,皮肤是黑色的还是白色的等特征。JavaScript表示人的技能,例如跳舞、唱歌或者演奏乐器。 (HTML,HyperText Markup Language)超文本标记语言是一种用于创建可从一个平台移植到另一平台的超文本文档的标记语言,常用于创建Web页面。HTML文件是带有格式标识符和超文本链接的内嵌代码的ASCII文本文件——HTML结构。 HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML网页结构包括头部(head)、主体(body)两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。 HTML是制作网页的基础,在网络营销中介绍的静态网页,就是以HTML为基础制作的网页,早期的网页都是直接用HTML代码编写的,不过现在有很多智能化的网页制作软件(常用的如FrontPage,Dreamweaver等)通常不需要人工写代码,而是由这些软件自动生成代码。尽管不需要自己写代码,但了解HTML代码仍然非常重要,了解认识HTML是学习网络爬虫的基础知识。HTML HTML是整个网页的结构,相当于整个网站的框架。HTML的标签都是成对出现的,常见的标签如表1。常见的HTML标签html.../html表示标记中间的元素是网页body.../body表示用户可见的内容div.../div表示框架p.../p表示段落li.../li表示列表img.../img表示图片h1.../h1表示标题a-href=””.../a表示超链接表1CSS (CSS,Cascading Style Sheets)层叠样式表是用于表现HTML等文件样式的一种计算机语言。CSS不仅可以静态地修饰网页,还可以和各种脚本语言一起动态地对网页各元素进行控制。 CSS是控制样式结构的语言,主要用于控制网页结构和信息表现。CSS代码可以直接写在HTML网页代码中或者单独写在CSS

文档评论(0)

173****0166 + 关注
实名认证
内容提供者

临床医师执业资格证持证人

医学资料整理

领域认证该用户于2023年01月12日上传了临床医师执业资格证

1亿VIP精品文档

相关文档