基于Agent和XML的Web页面信息抽取研究与设计.PDF

下载文档

2
0
约1.24万字
约 4页
2017-05-16 发布于天津
举报
版权申诉
保障服务

基于Agent和XML的Web页面信息抽取研究与设计.PDF

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第25卷第8期计算机工程与设计 2004年8月 V01．25No．8 COMPUTERENGINEERINGANDDESIGN Aug．2004 文章编号：1000．7024(2004)08．1411．04 中图分类号：TP311 文献标识码：A 孟宪福，狄慧 (大连理工大学计算机系，辽宁大连116024) 原型系统里，利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。另外，系统还用XML语言描述抽取请求和抽取规则，在其中加入一些语义信息，这些语义信息可被有效利用，从而提高抽取的精确性。关键词：Web信息抽取；Agent；XML；抽取规则 Researchand ofwebinformationextractionbasedon andXML design agent MENG Hui Xian—fu，DI (DepartmentofComputer,DalianUniversityofTechIlologyDalian116024，China) Abstract：AnandXMLbasedweblE(webinformation is thatutilizessome methods agent extraction)frameworkpresented existing oftheformerrelatedresearches．Inthe andcoordinationof are toassistuserformulate framework，theautonomy agentemployed on． In extraction learnextractionrulesonthebaseof basesandSO is to queries，to knowledge addition，XMLlanguage employed describeextractionandextractionrulesinwhichsomesemanticinformationisadded．ThesemanticinformationCanbe queries efficiently usedtoenhancetheextraction preciseness． words：webinformation rules Key extraction；agent；XML；extraction 参考语义知识采取行动，且Agent之间相互协作，从而提高 1 引言 Web信息抽取的智能性和精确性。近年来，Web已发展成为一个跨国界的巨大信息空间，另外，目前Web页面上的信息大多数用HTML语言表而且Web页面的数量仍以惊人的速度增长。Web页面信息示，HTML固有的缺点给Web页面信息抽取带来一定困难。抽取是对已有Web资源的有效利用，其主要目标是从分散首先，HTML是半结构化的标记语言，不便于应用程序直接在In