- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于图的CoTraining网页分类
第lO期 电 子 学 报 v01.37No.10
2009年10月 AcrAEIJEcllRONICAS1NICA Oct.2009
基于图的 网页分类
Co--Training
侯翠琴,焦李成
(西安电子科技大学智能信息处理研究所和智能感知与图像理解教育部重点实验室,陕西西安710071)
摘 要:本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算
based forweb
Co-training page
法:基于图的Co-uaining网页分类算法(Graphalgorithm
监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大
量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的
Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类
器可以用来预测大量未见数据的类别.在Web--,KB数据集上的实验结果表明,与利用文本特征和锚文本特征的co-
training算法和基于EM的Sayes算法相比,GCx卜training算法性能优越.
关键词: 图;半监督;Co-training;归纳式;网页分类
中图分类号:TPl8 文献标识码: A 文章编号:0372-2112(2009)10-2173.08
Based forWeb Classification
Graph Co—TrainingAlgorithmPage
.HOU
Cui—qin,JIAOLi-cheng
(脚b蛔砒町of胁df瞎叫^m尹锄andImageUtwlerst咖ofMinistryofEducationofChina
lnstiatte
ofIntelligentlnform越ion№晒,XwlianUniversity,船’∞,Shaan耐710071,醌讹)
AbsttacI:This anovelilldl】ctive forweb classification
paperproposes semi—supervised
algorithmpage named鼢aining,
textsinweb and trainstwoclassifiers-a
exploiting pageshyperlinksamongthem.GCo-u-aimgiterafively graph-basedsemi一跏p*
visedclassifierbasedOn web anda classifierbasedOntextsinweb theframeworkof
hyperlinksamongpages Bayes pages,raider
On small
theonehand,the
您可能关注的文档
最近下载
- 《中国传统文化融入小学高年级英语学习活动的实施路径研究》课题研究方案.doc
- 《基于语文核心素养理念下小学语文高段阅读教学策略研究》研究计划——以榆林市M小学为例.docx
- T_PSC 9-2022 绿潮灾害风险预警技术导则.docx
- 湖南省建设工程总承包发包人要求编写指南.pdf VIP
- MBTI职业性格测试及解析(最完整版)【稀缺资源-路过别错过】.pdf VIP
- 药物警戒管理体系质量控制指标管理规程.docx
- 十二星座传说及性格.ppt VIP
- 小班音乐《小动物和狼》课件.ppt VIP
- 赤潮遥感跟踪预警技术指南.pdf
- 南通沃兰化工有限公司年产2000吨苯磺酰氯等产品项目环境影响报告书.pdf
文档评论(0)