基于主动学习的web页面信息抽取.pdfVIP

下载本文档

7
0
约1.25万字
约 5页
2017-09-03 发布于重庆
举报
版权申诉

基于主动学习的web页面信息抽取.pdf

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第 23卷第6期情报学报 VDo1．23．№6 2004年 12月 ecember，2004 基于主动学习的Web页面信息抽取张清军朱才连 (中国科学院测量与地球物理研究所，武汉 430077) 摘要本文提出一种基于主动学习的Web页面信息抽取方法，可以使用户在标记少量具有代表性的样本页面的情况下，有效地提高信息抽取规则的覆盖性，从而使包装器具有一定的自适应性。关键词主动学习 Web信息抽取包装器 Information Extractionfrom W ebPagesBased onActiveLearning ZhangQingjunandZhuCailian (InstituteofGeodesyandGeophysics，ChineseAcademyofSciences，Wuhan430077) Abstract Inthispaper，anapproachofinformationextractionfromwebpagesbasedonachvelearningispresented．Itcan effectivelyimprovecovetingofinfomr ationextractionrolesbylabelingafew representativewebpages．Sohtewrappercanadaptto changesinthesitesfrom whichhtedata isbe ingextracted． Keywords activelearning，infomrationextractionfromwebpages，wrapper．包装器 (Wrapper)来完成。在 www 的信息应用中， 1 引言包装器…是一种软件过程，这个过程应用已经定义好的信息抽取规则，将输入 Web页面的信息数据抽随着 Intemet的迅猛发展，www 逐渐成为了信取出来，转换为用特定的格式描述的信息。一个包息发布和获取的主要平台，其上数据一直呈几何级装器一般针对某一个单一数据源中的一类页面。在数增长。然而用于表达 Web页面信息的 HTML标以前的系统中，主要采用人工方法完成包装器的生记语言存在着先天性的不足：用 HTML语言发布的成，实现数据的抽取工作。但是由于 Web信息量巨数据主要目的是为了显示，让人通过浏览器浏览，但大，新资源频繁加入，现存资源的格式也经常变动，缺乏结构，而且没有语义信息，这使得应用程序无法因此采用人工实现包装器的方法不仅麻烦而且缺乏直接解析并利用 Web上海量的数据。如何有效地适应性。利用这些信息就变的非常迫切，因此出现了很多基通常可以采用半自动或全自动的方式生成包装于 Web信息源的技术和应用，其中信息抽取技术是器，国外在这方面的研究取得了很多的成果。文献当前研究的一个热点。 [2]采用文档对象模型 (DOM)实现半自动化的信息 Web信息抽取就是从 Web页面所包含的无结抽取。文献 [3]采用 ECT(EmbeddedCatalogTree)来构或半结构的信息中识别用户感兴趣的数据