- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2004年10月 保定师范专科学校学报 0ct.2004
0FBAODINGTEACHERS VoL17No.4
第17卷第4期 JOURNAL COLLEGE
文章编号:1008.4584(2004)04一0015—03
利用MSHTML组件从网页上提取数据
吕树进
(保定师范专科学校教育信息技术系,河北保定071051)
摘
关键词:HTML语言;MSHTML对象模型;网页
中图分类号:TP311.1 文献标识码:A
1 问题的提出
随着互联网的发展,通过网络获取数据和信息的人越来越多.通常情况下,只要把浏览的网页保存下
来或记录下部分数据即可.而在另外一些情况下,为更好地分析研究数据,需要利用编程的方法将网页上
的可用数据提取出来.如:科学工作者需要从发布天气预报的站点获取气象资料用以研究;金融和经济工
作者需要跟踪和记录股票、汇率的变动情况;提供有哪些信誉好的足球投注网站服务的网站需要根据关键词有哪些信誉好的足球投注网站网页,分析链接情况
等等.所有这些应用都涉及到对网页数据的分析和提取.
2 网页的结构
要分析网页上的内容和数据,首先需要了解网页的结构.互联网是由无数个相互链接在一起的网页组
Text
成的,这些页面又称为Web文档,是由HTML(HyperMarkup
时也包含要显示的图形、声音等元素以及与其他文档的超链接.控制语句是由一些标注(Tag)组成,用来描
述显示内容展示的形式,并负责客户与服务器之间的信息交换.标注以◇括起来,常成对出现.浏览器能
识别这些标记,并根据标记要求的格式显示内容n】.
下面是1个由HTML语言编写的网页文档:
HTML
订ITLE这是HTML文档的标题/TITLE
HEAD在这里输人正文标题/HEAD
BODY在这里输入正文文字,包括图片超链接等/BODY
/HTML
HTML文档头部和文档正文.文档头部放在HEAD和/HEAD之间,通常包括下列元素:
(1)文档标题:是浏览器窗口标题栏上显示的文本,用IITLE和/TITLE标志指定.
键字等,BASE用于设置网页的基准URL.
(3)脚本:文档中插入的操作页面元素的短程序,位于妈CRIPT和/SCRl明之间.
HTML语言还包括大量的标志,主要分为以下几类:
作者简介:吕树进(1967一),男,河北唐县人,实验师
·16· 保定师范专科学校学报 2004年第4期
(2)超链接:用A、/A定义,同时还要指定超链接的目标uRL;
(3)图形:用IMG标志,其sRC属性指定图片的来源;
3 MSHTML组件的对象模型
的标准接口,可以访问指定网页的所有元素.
MSHTML对象模型是由一些对象和集合组成的.处于根
部的是HTML,描述了打开页面的1个窗口,包括一系列集合和
对象,如Frames集合,History,Location,Navigator,Document,vi—
sual,Event对象等.其中描述呈现在客户窗口实际网页的是
Doc啪ent对象,由一系列的属性、方法、对象和集合组成.Doc—
ument的对象结构如图1所示.
其中AU集合中包含网页中所有标记(Tag)元素,其主要的
方法和属性有:
(1)Len昏h(长度):即标记出现的个数,可以把标记的集合
理解为从0开始的一维数组,其次序按照标记在网页位置排列;
oc.AllI
(2)Tags(标记):用于过滤出给定标记的集合,如D
Tags(P)得到所有分段标记P;
(3)Item(项目):用于选择集合中的某1个元素,如object.
item(0)得到集合的第1个元素,而object.item(i)得到第i+1
个元素.
文档评论(0)