- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Agent和XML的Web页面信息抽取研究与设计.PDF
第25卷第8期 计算机工程与设计 2004年8月
V01.25No.8 COMPUTERENGINEERINGANDDESIGN Aug.2004
文章编号:1000.7024(2004)08.1411.04 中图分类号:TP311 文献标识码:A
孟宪福, 狄慧
(大连理工大学计算机系,辽宁大连116024)
原型系统里,利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。
另外,系统还用XML语言描述抽取请求和抽取规则,在其中加入一些语义信息,这些语义信息可被有效利用,从而
提高抽取的精确性。
关键词:Web信息抽取;Agent;XML;抽取规则
Researchand ofwebinformationextractionbasedon andXML
design agent
MENG Hui
Xian—fu,DI
(DepartmentofComputer,DalianUniversityofTechIlologyDalian116024,China)
Abstract:AnandXMLbasedweblE(webinformation is thatutilizessome methods
agent extraction)frameworkpresented existing
oftheformerrelatedresearches.Inthe andcoordinationof are toassistuserformulate
framework,theautonomy agentemployed
on. In
extraction learnextractionrulesonthebaseof basesandSO is to
queries,to knowledge addition,XMLlanguage
employed
describeextractionandextractionrulesinwhichsomesemanticinformationisadded.ThesemanticinformationCanbe
queries efficiently
usedtoenhancetheextraction
preciseness.
words:webinformation rules
Key extraction;agent;XML;extraction
参考语义知识采取行动,且Agent之间相互协作,从而提高
1 引 言
Web信息抽取的智能性和精确性。
近年来,Web已发展成为一个跨国界的巨大信息空间, 另外,目前Web页面上的信息大多数用HTML语言表
而且Web页面的数量仍以惊人的速度增长。Web页面信息示,HTML固有的缺点给Web页面信息抽取带来一定困难。
抽取是对已有Web资源的有效利用,其主要目标是从分散 首先,HTML是半结构化的标记语言,不便于应用程序直接
在In
文档评论(0)