- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
情境导入:本单元项目式主题:校园科技节为了使制作出的网页更加吸引人,我们决定多找一些我国科技领域重大创新成果的相关图片或文本来丰富网页。但是网络上相关信息太多,如何快速获取这些信息呢?
《1.3使用网页爬虫爬取网页数据》2023年电子工业出版社七年级下册-第1单元解密互联网中的信息编码-珠珠老师信息科技课件2022新版课标内容
1活动1:认识网络爬虫2活动2:编程实现网络爬虫《目录》信息科技3活动3:熟悉网络爬虫的“君子协议”
01认识网络爬虫活动1
01.知识点讲解一般情况下,我们是通过在网页上有哪些信誉好的足球投注网站、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序(以下简称为网络爬虫)来实现对数据的自动化采集。活动1:认识网络爬虫01什么是网络爬虫
01.知识点讲解网络爬虫就是模拟我们浏览网页的行为,再将站点返回的HTML代码放到本地,保存并使用。01网络爬虫小总结活动1:认识网络爬虫原则上只要浏览器能做的事情,爬虫都能做!
02编程实现网络爬虫活动2
01.知识点讲解使用Python语言可以方便地编写网络爬虫的程序,获取网页中的信息。活动2:编程实现网络爬虫02接下来教师演示使用python语言编写获取网页信息的网络爬虫程序。
01.知识点讲解活动2:编程实现网络爬虫02(5)输出爬虫“爬”到的内容:(1)启动mPython,单击mPython窗口左上角的“硬件编程”,打开下拉列表,选择“Python”,进入Python代码编程界面,按以下步骤编写程序。(2)使用requests模块和lxml模块加载网络爬虫程序:(3)用requests模块的get)方法获取爬虫需要“爬”的网页地址,将网页文本保存在变量txt中,再将网页文本解析为HTML文档:(4)使用HTML的xpath()方法定位爬虫的位置,并将“爬”到的内容保存在列表变量title中:(6)运行程序,在mPython窗口右侧可以看到程序的运行结果。
01.知识点讲解上述程序中用到了Python语言的两个扩展模块,下面介绍安装扩展模块的方法。在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests”,如下图所示。单击“安装”按钮,若出现“Successfullyinstalled”,就表示requests模块安装好了,然后可以按同样的方法安装Ixml模块。02知识拓展活动2:编程实现网络爬虫加载网络爬虫程序需要的模块
01.知识点讲解XPath(XMLPathLanguage)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。可以采用以下方法获取网页中指定位置的XPath地址:(1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码;(2)单击“选取页面中的元素”按钮,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码;(3)将鼠标指针指向高亮代码部分,并在其上面右击;(4)打开快捷菜单,执行“复制”→“复制XPath”命令,如下图所示,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。02活动2:编程实现网络爬虫获取网页中指定位置的XPath路径地址
01.知识点讲解02活动2:编程实现网络爬虫获取网页中指定位置的XPath路径地址需要注意的是,虽然用网络爬虫获取网站内容的方法有很多,但使用网络爬虫并不能获取所有希望获取的网站内容,如封装过的网页或动态网页,以及做了屏蔽网络爬虫设置的网站等,都无法获取。
03熟悉网络爬虫的“君子协议”活动3
在使用网络爬虫爬取网络信息时,可以随便爬取吗?爬取到的信息都可以随便使用吗?结合使用网络爬虫的体验,尝试制订合理的网络爬虫协议,并写在导学案中。讨论与交流01.知识点讲解03活动3:熟悉网络爬虫的“君子协议”
01.知识点讲解为了规范网络爬虫的使用,一些有哪些信誉好的足球投注网站引擎从业者和网站站长定下了“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。协议规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。我们在使用网络爬虫爬取网页数据时,要严格遵守网站的Robots协议,在爬取要使用的信息前,应先进行审查,如发现用户的个人信息或商业秘密,应及时停止爬取并删除已爬取的信息。03助力知识:君子协议活动3:熟悉网络爬虫的“君子协议”
1.使用Python编程爬取我国科技领域的重大创新成果,选取你认为合适的内容,并进行适当编辑,放入“科技创新自主可控”
您可能关注的文档
- 电子工业社版(2022)七年级信息科技下册 1.1编辑网页信息 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 1.1编辑网页信息 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 1.2网页中的信息编码 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 1.2网页中的信息编码 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 1.3使用网页爬虫爬取网页数据 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 2.1初识云计算和云存储 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 2.1初识云计算和云存储 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 2.2在线协作 教学设计.docx
- 电子工业社版(2022)七年级信息科技下册 2.2在线协作 课件.pptx
- 电子工业社版(2022)七年级信息科技下册 2.3网络新媒体 教学设计.docx
文档评论(0)