网站大量收购闲置独家精品文档,联系QQ:2885784924

可在线增量自学习的聚焦爬行方法.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
可在线增量自学习的聚焦爬行方法

第 38 卷  第 6 期 西 安 交 通 大 学 学 报 Vol. 38  №6 2004 年 6 月   J un. 2004 J OU RNAL OF XI′AN J IAO TON G UN IV ERSIT Y 可在线增量自学习的聚焦爬行方法 傅向华 , 冯博琴 , 马兆丰 , 何 明 (西安交通大学电子与信息工程学院 , 710049 , 西安) 摘要 : 将 Web 爬行看作执行序列动作的过程 , 结合改进的快速 Q 学习和半监督贝叶斯分类器 ,提出一种新 的具有在线增量自学习能力的聚焦爬行方法. 该方法从获取的页面中抽取特征文本 ,根据特征文本评估页面 的主题相关性 ,预测链接的 Q 值 ,然后基于 Q 值过滤无关链接. 当得到主题相关页面时产生回报 ,将回报沿 链接链路反馈 ,更新链路上所有链接的 Q 值 ,并选择相应的特征文本作为训练样本 ,增量地改善主题评估器 和 Q 值预测器. 实验结果表明 ,该方法具有很快的自学习能力 ,获取的页面数目和精度均优于离线聚焦爬行 方法 ,更符合 Web 资源发现的要求. 关键词 : 资源发现 ;聚焦爬行 ;在线学习 ;半监督学习 ( ) 中图分类号: TP391  文献标识码 : A  文章编号 : 0253 - 987X 2004 06 - 0599 - 04 Focused Cra wling Method with OnlineIncremental Ada ptive Learning Fu Xian ghua , Fen g Boqin , M a Zhaof en g , He M in g ( School of Electronics and Information Engineering , Xi ′an Jiaotong University , Xi ′an 710049 , China) Abstract : Almost current focused crawling systems need volume of trained data samples and cannot learn persis tently. Based on the principle of the reinforcement learning , the Web crawling is viewed as a process to perform sequential actions. Combining with the improved fast Qlearning and semisupervised Bayesian classifier , a novel focused crawling method being able to make onlineincremental adaptive learning is presented. Using the charac teristic texts extracted from the retrieved pages , the topicrelevance of the new pages can be evaluated by topic e valuator , and the discounted cumulative reward (the value Q) of the links can be predicted by Qpredictor. The value Q is used to cut off the offtopic links , whil

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档