深入浅出Python编程课件-面向对象:采集网络图书数据.pptx

深入浅出Python编程课件-面向对象:采集网络图书数据.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共59页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

深入浅出Python编程

(面向对象程序设计)采集网络图书数据

从当当网和豆瓣网查询图书信息将当当网查询的图书信息解析并以字典形式存入文件将豆瓣网查询的图书信息解析并以文本的形式存入文件Outcome

单元目标/Objectives?理解面向对象程序设计思想?掌握面向对象编程的三大特性?熟练掌握Python类和对象的基本使用?理解类成员和实例成员的区别?掌握简单网络爬虫应用⑥具有良好的职业道德和法治意识

内容及计划/AgendaSchedule12/6ClassHoursDetails专科应用本科00:1000:10回顾成果介绍01:2000:40了解面向对象程序设计01:2000:40类的派生:编写爬虫基类02:0501:05检索并爬取当当网图书数据01:2000:40了解正则表达式01:4000:40检索并爬取豆瓣网图书数据00:0500:05课堂小结Total:12/6hours(8/4hPractice)

01图书数据采集webcrawler

1.任务分析目标解构采集数据:发起网络访问请求,并获得网站返回的响应网页HTML文件。解析数据:对拿到的网页文件进行分析、解析,找到包含所需数据的HTML节点。清理数据:对提取的数据按规范的存储要求进行查漏补缺,统一格式要求。保存数据:将最终的数据保存到文件或数据库。模式识别JSON和TEXT格式的数据文件。提取书名、作者和出版社等三项数据。

1.任务分析模式归纳采集数据主要是发起HTTP网络访问请求。解析数据要从网页HTML文件中提取包含所需数据的节点,并从中拿到数据项,这需要对HTMLDOC结构进行操作;清理数据是按规范格式整理数据。保存数据只涉及到文件的写入操作。算法设计OOP编程:将相同的需求抽象出来封装到基类,将相似但有不相同的需求分别由不同的子类来实现。requests第三方模块发起访问请求。BeautifulSoup和正则表达式。

2.任务准备requests模块模拟访问Web服务器、自动提交网络请求一般,爬虫的时候通过设置User-Agent+Referer伪装成浏览器去访问网页也是绕过反爬虫的一种手段beautifulsoup4模块从HTML或XML文件中提取数据支持Python标准库中的HTML解析器(html.parser),还支持一些第三方的解析器,包括lxml解析器、html5lib解析器等

2.任务准备什么是HTML文档HTML:通知客户端浏览器这是一个HTML文档,需要浏览器用HTML格式解释它,直到文件尾部的/HTML。HEAD:文档的起始部分,主要是用来描述文档的一些基本性质,不会被当成网页的主体显示在浏览器中。BODY:文档的内容部分,显示在浏览器中。!DOCTYPEhtmlhtml/htmlhead/head/bodybodytitlePython编程/titlemetacharset=‘uft-8’/p这是正文里的一个段落/phtmlbodyh1p

02认识类和对象ClassObject

1.了解面向对象编程面向对象程序设计(Object-OrientedProgramming,OOP):一种基于“对象(objects)”概念的编程范式一种基于“对象(objects)”概念的编程范式包含数据/data和代码/code:字段(fields)形式的数据,通常称为特性(attributes)或属性(properties)。过程(procedures)形式的代码,通常称为方法(methods)。

1.了解面向对象编程类是模板,对象是根据模板创建的特定实例类(class)是一个抽象概念,是一系列具有相同特征和行为的事物的统称;对象(object)作为内存区域,可包含任意数量和类型的数据并由标识符引用。

1.了解面向对象编程面向对象编程的三大特性封装(encapsulation):封装=数据+代码;类=变量+方法继承(inheritance):派生类/子类自动拥有其父类的所有属性和方法多态(polymorphism):纵向上来看,依赖于继承;横向上看,依赖于接口(interface)。

2.类的创建与实例化—?实例成员Python创建一个类要用到关键字class,语法格式如下:

2.类的创建与实例化—?实例成员Python创建一个类要用到关键字class,语法格式如下:创建一个对象的语法格式如下:

2.类的创建与实例化—?实例成员类的实例之间互补干扰self__str()__方法可以得到实例对象的地址

2.类的创建与实例化—?实例成员Python允许动态地为类和对象增加成员实例对象动态创建的属性只对该实例对象有效,对同一类的其它对象是没有影响的

2.类的创建与实例化—?类的成员类

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档