基于图的CoTraining网页分类.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于图的CoTraining网页分类

第lO期 电 子 学 报 v01.37No.10 2009年10月 AcrAEIJEcllRONICAS1NICA Oct.2009 基于图的 网页分类 Co--Training 侯翠琴,焦李成 (西安电子科技大学智能信息处理研究所和智能感知与图像理解教育部重点实验室,陕西西安710071) 摘 要:本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算 based forweb Co-training page 法:基于图的Co-uaining网页分类算法(Graphalgorithm 监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大 量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的 Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类 器可以用来预测大量未见数据的类别.在Web--,KB数据集上的实验结果表明,与利用文本特征和锚文本特征的co- training算法和基于EM的Sayes算法相比,GCx卜training算法性能优越. 关键词: 图;半监督;Co-training;归纳式;网页分类 中图分类号:TPl8 文献标识码: A 文章编号:0372-2112(2009)10-2173.08 Based forWeb Classification Graph Co—TrainingAlgorithmPage .HOU Cui—qin,JIAOLi-cheng (脚b蛔砒町of胁df瞎叫^m尹锄andImageUtwlerst咖ofMinistryofEducationofChina lnstiatte ofIntelligentlnform越ion№晒,XwlianUniversity,船’∞,Shaan耐710071,醌讹) AbsttacI:This anovelilldl】ctive forweb classification paperproposes semi—supervised algorithmpage named鼢aining, textsinweb and trainstwoclassifiers-a exploiting pageshyperlinksamongthem.GCo-u-aimgiterafively graph-basedsemi一跏p* visedclassifierbasedOn web anda classifierbasedOntextsinweb theframeworkof hyperlinksamongpages Bayes pages,raider On small theonehand,the

文档评论(0)

yaobanwd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档