基于xml和xslt的web信息抽取研究与设计-软件工程专业论文.docx

下载文档 降价啦

0
0
约7.45万字
约 107页
2018-05-05 发布于上海
举报
版权申诉
保障服务

基于xml和xslt的web信息抽取研究与设计-软件工程专业论文.docx

1、本文档共107页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于xml和xslt的web信息抽取研究与设计-软件工程专业论文

目录3.2 翔L … …133.2.1 XML的产生……133.2.2 xML 语法……143.2.3元素(Element)与标记(Tag)……巧3.2.4 属性(Attribute) ……163.2.5翔L验证(Validation) ……163.2.6 样式单·····… …173.2.7XML带来的好处……183.3 XHTML … …213.4D服(DocumentobjectModel) ……213.5 XPath … …223.5.1 查询… …233.5.2定位路径(Location Path) ……243.5.3 表达式… …263.6 XSLT … …283.6.1 模板… …293.6.2 取得节点值……293.6.3 应用模板……303.6.4 默认模板规则……313.6.5 循环… …313.6.6 选择… …323.6.7 变量…… ，……333.6.8 按名称调用模板……333.6.9 用Java扩展XSLT……353.6.10 EXSLT (Extensions to XSLT)… …36第四章网页信息抽取平台……374.1网页信息抽取的难点……374.2网页信息抽取平台的目标……374.3 基于XSLT 的抽取模式……38目录4.4示例:利用GUI编写XSLT…… 394.4.1 抽取天气信息… …47第五章抽取规则健壮性研究…… 535.1数据定位健壮性研究…… 535.1.1 完全基于文本的定位…… 545.1.2使用属性模式定位…… 545.1.3 不同定位模式的讨论…… 555.2基于缩略路径的数据抽取…… 565.3构造通用的链接组抽取模式…… 56第六章自动归纳网页模板…… 596.1 引言… … 596.2相关工作·······…… 606.3模型和假定·········…… 626.4 归纳树模板···············…… 646.5进一步的过滤与转换…… 706.6实验结果·····…… 736.7小结……75第七章自动归纳网页记录模板……767.1 引言… … 767.2 相关工作…… 777.3 模型和假定…… 787.3.1 数据类型… …787.3.2 模板… …787.3.3 抽取模型… …797.3.4 简化后的模型…… 817.4 归纳记录模板…… 82目录7.4.1 列表数据的路径模式… … 827.4.2 树路径聚类与归纳…… 837.5 实验结果…… 877.6 小结…… 88第八章多网页信息抽取…… 908.1 引言…… 908.2 模型和框架…… 918.2.1 问题描述…… 918.2.2 抽取框架…… 918.3小结……94第九章总结和未来的工作……959.1 总结…… 959.2 未来的工作…… 96致谢…… 99参考文献…… 100第一章概述第一章概述.1引言.1.1背景毫无疑问，互联网已经成为最为流行的信息发布媒介。互联网使得人们无论是发布还是阅读信息都变得极为方便。然而，随着互联网信息爆炸性的增长，人们想要获取一条自己想要的信息却变得像大海捞针一般困难。如何快速、有效地有哪些信誉好的足球投注网站所需信息，成为鱼待解决的问题。在这种背景下，有哪些信誉好的足球投注网站引擎出现了。它帮助人们通过给定的关键词来获取相关的页面。然而，有哪些信誉好的足球投注网站引擎只是部分的缓解了信息有哪些信誉好的足球投注网站的问题，结果并不能令人满意。不足之处表现在三个方面:1.只是给出了相关页面的链接，用户还是需要手工浏览网页才能找到相关信息。2.结果不准确。大量的有哪些信誉好的足球投注网站结果都是用户不想要的。3.检索模式简单。无法提供类似SQL这样强大的查询语言，由于无法定制精确的查询，想要获取精确的结果是不可能的。最理想的情景是:互联网作为一个信息源能像数据库一样被查询。然而，互联网上文本信息的格式是半结构化的HT施，它是无法被机器直接处理的。因此，一种想法是将网页中的信息抽取出来并存放到数据库中〔川. 这样，用户就可以利用数据库的各种特性来查询数据了。.2研/eb信息抽取信息抽取的目标是将文本中的信息抽取出来并表示为结构化、自描述的数据结构。从而将难以操纵的文本数据转化为容易处理和分析的结构化数据。传统的信息抽取是针对纯文本，主要使用自然语言理解的技术。但由于纯文本没有任何文本之外可利用的信息，这项工作极为困难，进展也很缓慢。随着互联网的出现，Web文档的信息抽取逐渐成为鱼待解决的问题。一个Web文档就是一个网页，网页与纯文本的结构差别很大，主要表现为网页中存在大量的标记，这夕电子科技大学硕士学位论文些标记将网页要显示的文本内容分隔开来。大量的标记为网页信息抽取提供了更多可利用的信息，从而可以开发各种不同于传统信息抽取的方法对网页进行信息抽取。标记为文档引入了结构信息。