- 1、本文档共2页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XML网页的链接解析与信息采集研究.pdf
【技术研发l、$一●
VALLE工脚
XML网页的链接解析与信息采集研究
刘瑛
(华东交通大学理工学院江西南昌330000)
摘要: 传统HTML格式的链接解析和内容提取已无法满足应用需求。在解析模块部分引入对源文件格式判断、按配置处理和预转换为HTML功能。在抽取规整
模块新增XML=命令和新调整解释引擎,保留原图形化配置、坝览测试方便等特性.
关键词: 互联网信息采集:链接解析:XML资源
中图分类号:TP3文献标识码:A文章编号:1671--7597(2010)0520089--01
1XML技术 3同页信息采集
)。哪。是一种界定文本数据的统一标准,被称作“Web上的ASCII码”。 网页信息采集指深入到站点和页面内部进行内容分析和分类整理,从
这就像某用户使用自己喜爱的编程语言创建一种数据结构后,其他用户也 网页中提取有效数据并按用户要求存储,如直接映射到指定数据库。
可以在其他计算机平台上使用他自己喜欢的语言来访问该数据结构一样。 3.1传统HTML信息采集
可以使用XML的标记来说明用户所描述的概念,而使用其属性来控制它们的 传统HTML中数据与格式语言混排,但很多网页采用动态发布技术实现
结构,从而可以定义自己所设计出的语法并同其他人共享。 或采用模板制作,有一定内在逻辑或规律。运用html分析技术,町以剥离
至今XMLL三经成为+种存储和交换数据的通用格式,是那砦带标记的 出用户所需信息如标题、正文、作者等。
(例如,文本一类带有标示文档结构和重点的标记)、结构化(嵌套对象)或 采集过程是:用户通过分析指定网站或频道栏目下的网页元素,剖析
半结构化(异类数据)信息的常用选择。此外,XMI.,也逐渐成为一种在网络中 网页源HTML代码与所需要数据项的对应关系,利用抽取过程编辑器定义和
不同应用程序之间相互交换数据的重要标准。 描述好HTML分析处理过程后,由内容替换抽取脚本的解释引擎依次执行和
与当前得以普遍使用的HTML规定了数据的显示方式相比,XML是用于规整入库。其中脚本过程语言替换抽取过程实质为一些字符串处理操作组
描述数据结构的一种标准。HTML与XML的本质区别在于,HTML除了能够描述合,如简单替换命令、高级替换命令、抽取命令、赋值命令、规整命令。
数据的硅示方式之外,无法给出与数据相关的其他任何信息。因此XML并非 通过转换为HTML语言后解析链接比较通用,适合全范围解析。由于相
HT札的替代品,XML【}没有与可视化表现形式有关的内容,与注重数据及其关超链接信息均存在xML文件的某类节点中,每次使用XSL转换会有性能上
表达方式的HTML不同,x^lL只关心数据本身。 不必要开支,因此有时,特别是对某类网站信息定向跟踪时,为更高性能
瑚L语占通过XffL标记来描述数据结构(例如,一个x札文件或XML实体或仅为获取所需的部分链接,有必要采用手工定制的链接解析。
的内容结构)。ⅫL标记可用于界定数据的不同部分、提供特殊符号和文本 手工配置方法是先人为查看源?ddL或XSL(流览器中查看源文件),找到
宏的引用、将特殊指令传送给应用软件,以及把注释传递给文档编辑器 超链接(包括文字、图片、附件)用节点名,添加在配置文件的xmlhref项
等。 中,系统解析时依此进行。同一个xsL文档对应的XML是同构的。故采用按
XML元素的结构与HTML元素基本相同,瑚L也同样使用/来界定标
记,但_二者的.辛}|同点也仅此而已。此外,xML的标记必须成对出现,但址)信息。
…/也可简化为“…/”。
与HTML不同。所有的xML标记都是大小写敏感的,其中包括元素的标config.x=l中格
您可能关注的文档
- PC抗冲击性能测试及测定仪的研制D.pdf
- PC机与单片机的远距离多机通信问题.pdf
- PC机与单片机通信中纠错编码的软件实现.pdf
- PC检测技术在化纤工业中的应用.pdf
- pdf全文微机小型网络并行计算系统的搭建与讨论.pdf
- pdf江西省开展社区肿瘤防治工作探讨.pdf
- PDM在生产过程中的质量管理.pdf
- PDM技术在汽车设计中的初步实现_周红.pdf
- PDM的发展及其新技术的开发应用.pdf
- PDM系统中电子图纸自动入库技术研究.pdf
- 2025年荆州职业技术学院单招职业技能测试题库(轻巧夺冠).docx
- 2025年菏泽学院单招职业技能测试题库(精选题).docx
- 2024-2030全球免疫学-肿瘤学 Elisa 试剂盒行业调研及趋势分析报告.docx
- 2025年苏州经贸职业技术学院单招职业技能测试题库及一套完整答案.docx
- 2024年全球及中国合同数据库管理软件行业头部企业市场占有率及排名调研报告.docx
- 2025年苏州经贸职业技术学院单招职业技能测试题库(夺冠).docx
- 2024-2030全球排气式移液枪行业调研及趋势分析报告.docx
- 2025年萍乡卫生职业学院单招职业适应性测试题库完整版.docx
- 2024年全球及中国法律科技软件行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国配变监测终端行业头部企业市场占有率及排名调研报告.docx
最近下载
- 部编人教版四年级下册语文 语文园地一 教案.docx
- 煤化工工程设计防火标准第五章建筑防火解读陈京老师.pdf
- 第七章 国际视野下的当代学前教育课程(7.2国际上学术导向下的学前教育课程).doc VIP
- 军歌100首歌词完整版.doc
- 2024年长沙电力职业技术学院单招职业技能测试题库往年题考.docx VIP
- 《望海潮》《扬州慢》比较阅读教学设计.doc
- 第七章 国际视野下的当代学前教育课程(7.1世界上部分政府政策导向下的学前教育课程).doc VIP
- 第二届全国乡村振兴职业技能大赛“育婴”赛项备考试题库资料500题(含答案).pdf VIP
- 2025年深圳市高三年级第一次调研考试 政治试卷(含答案).pdf
- 2024年部编版三年级下册语文第七单元综合检测试卷及答案.doc VIP
文档评论(0)