- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
提取数据
提取数据
--文本、innerhtml、outerhtml
文章讲述的入口地址为/guide/demo/simplemovies2.html
八爪鱼提取数据字段时,会有以下几个选项。如下图:
首先看到抓取这个元素的文本,这个意思是说直接抓取页面上显示的数据字段,例如我
们抓取这个标题
点击浏览器中的标题,在弹出的对话框中选择抓取这个元素的文本。如下图,显示的就
是 浏 览 器 中 的 数 据 字 段 。
接下来看第二个选项,抓取这个元素的innerhtml。首先看到html,前面在xpath 的入门
教程里给大家介绍到了html 是网页的代码,可能有些情况下我们需要抓取这些代码。可以
看到括号里面的提示抓取这个元素内部的网页源代码,带格式的文本和图片。
例如我在火狐浏览器打开这个网页,直接定位整篇文章,可以看到源码里面是在div 元
素里面的
如果我们在八爪鱼里面提取整篇文章的源码选择innerhtml,如下图所示:
操作之后可以看到如下图所示,里面的代码是以div class =tutorialContainer开头的
对比下面的火狐浏览器可以看到是以里面的div 开始的
现在大家明白了innerhtml 的含义了吗?即当前元素的内部源代码
再看看第三个选项outerhtml,括号里面的提示为包含当前元素的网页源代码,带格式的网
页和图片。 同样我们在八爪鱼里面提取整篇文章的源码选择outerhtml
操作之后可以看到如下图所示,里面的代码是以div style=padding: 19px;开头的
对比火狐里面的源码可以看到是以本身div 开始的。
现在大家也知道了outerhtml 的含义了即包含当前元素的网页源代码。
您可能关注的文档
- 复星国际656.HK2016年经营业绩报告.PDF
- 大公维持博茨瓦纳主权信用等级.PDF
- 大塚资讯科技股份有限公司.PDF
- 大学入学考试中心九十六学年度学科能力测验试题.PDF
- 大学入学考试中心九十五学年度学科能力测验试题.PDF
- 大学生网贷的危害.PDF
- 大肠直肠癌手术前後护理指导.PDF
- 天津医科大学2017年第二批公开招聘笔试大纲.PDF
- 天津华勘集团有限公司.PDF
- 天津市数学会第三届未来之星初中数学邀请赛试卷.PDF
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
文档评论(0)