- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
可在线增量自学习的聚焦爬行方法
第 38 卷 第 6 期 西 安 交 通 大 学 学 报 Vol. 38 №6
2004 年 6 月 J un. 2004
J OU RNAL OF XI′AN J IAO TON G UN IV ERSIT Y
可在线增量自学习的聚焦爬行方法
傅向华 , 冯博琴 , 马兆丰 , 何 明
(西安交通大学电子与信息工程学院 , 710049 , 西安)
摘要 : 将 Web 爬行看作执行序列动作的过程 , 结合改进的快速 Q 学习和半监督贝叶斯分类器 ,提出一种新
的具有在线增量自学习能力的聚焦爬行方法. 该方法从获取的页面中抽取特征文本 ,根据特征文本评估页面
的主题相关性 ,预测链接的 Q 值 ,然后基于 Q 值过滤无关链接. 当得到主题相关页面时产生回报 ,将回报沿
链接链路反馈 ,更新链路上所有链接的 Q 值 ,并选择相应的特征文本作为训练样本 ,增量地改善主题评估器
和 Q 值预测器. 实验结果表明 ,该方法具有很快的自学习能力 ,获取的页面数目和精度均优于离线聚焦爬行
方法 ,更符合 Web 资源发现的要求.
关键词 : 资源发现 ;聚焦爬行 ;在线学习 ;半监督学习
( )
中图分类号: TP391 文献标识码 : A 文章编号 : 0253 - 987X 2004 06 - 0599 - 04
Focused Cra wling Method with OnlineIncremental Ada ptive Learning
Fu Xian ghua , Fen g Boqin , M a Zhaof en g , He M in g
( School of Electronics and Information Engineering , Xi ′an Jiaotong University , Xi ′an 710049 , China)
Abstract : Almost current focused crawling systems need volume of trained data samples and cannot learn persis
tently. Based on the principle of the reinforcement learning , the Web crawling is viewed as a process to perform
sequential actions. Combining with the improved fast Qlearning and semisupervised Bayesian classifier , a novel
focused crawling method being able to make onlineincremental adaptive learning is presented. Using the charac
teristic texts extracted from the retrieved pages , the topicrelevance of the new pages can be evaluated by topic e
valuator , and the discounted cumulative reward (the value Q) of the links can be predicted by Qpredictor. The
value Q is used to cut off the offtopic links , whil
您可能关注的文档
最近下载
- 三国志9吧剧本制作教科书.pdf
- 苏教版四年级上册数学四年级上册数学第四单元《统计表和条形统计图(一)》专项练习(含答案).pdf VIP
- 温州市普通高中2025届高三第一次适应性考试(一模) 数学试卷(含答案详解)原卷.pdf
- 临床安全用药药品合理使用培训.docx
- 装配式钢结构住宅.pptx VIP
- 2023-2024学年浙江省金华市武义、永康、磐安县九年级(上)期末科学试卷.pdf
- 《面向对象程序设计C++》期末试卷及标准答案 .pdf VIP
- 五年级下-1000道口算.docx
- 九省联考2024届高三新高考适应性测试数学试题(解析版).docx
- 河南省郑州一中2024届数学八上期末调研模拟试题含解析.doc VIP
文档评论(0)