基于效用的定题爬虫有哪些信誉好的足球投注网站策略.ppt

基于效用的定题爬虫有哪些信誉好的足球投注网站策略.ppt

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于效用的定题爬虫有哪些信誉好的足球投注网站策略

基于效用的定题爬虫有哪些信誉好的足球投注网站策略 导师:林坤辉 报告人:王 威 2008-4-11 定题爬虫? * * 定题爬虫(focused crawler, topical spider)是为了一个特定的主题内容,从网络上有哪些信誉好的足球投注网站并下载与其相关的网页。它根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的队列。然后,它将根据一定的有哪些信誉好的足球投注网站策略从队列中选择下一步要抓取的网页,并重复上述过程,直到达到系统的某一条件时停止。 定题爬虫有哪些信誉好的足球投注网站策略研究 广度优先有哪些信誉好的足球投注网站策略 工作方法:在完成当前层次的有哪些信誉好的足球投注网站后,才进行下一层次的搜 索。 优点:该算法的设计和实现相对简单。 缺点:随着抓取网页的增多,大量的无关网页将被下载并过 滤,算法的效率将变低。 启发式有哪些信誉好的足球投注网站策略 工作方法:通过在线获得的领域知识评价待访问链接的价 值,借以推断信息资源的分布情况,然后按照一 定的原则选择价值最大的链接进行下一步的搜 索,找到到达目标节点的最佳路径,删除不好节 点,保留好的节点 。 优点:算法的效率较高。 缺点:这种启发式有哪些信誉好的足球投注网站策略是一种局部最优有哪些信誉好的足球投注网站算法,爬 虫抓取路径上的很多相关网页可能被忽略。 基于自动分类的有哪些信誉好的足球投注网站策略 工作方法:把爬虫看成Agent,使其具有一定的自主性,可 以学习web上的知识,具备经验信息,计算网页 是否属于所需要的主题类型,从而得到下载的正 确方向。 优点:算法的效率较高。 缺点:学习机制设计难度大,不易实现。 基于效用的有哪些信誉好的足球投注网站策略(本文算法) 工作方法:将效用决策理论引入到定题爬虫URL的选择过程中。 爬虫按照最大期望效用原则选择期望效用最大的 链接。 优点:有效的避免了局部最优。 效用 效用理论根源于经济学 效用是一个从状态映射到实数的函数,效用 函数分配一个数值来表达对某个状态的 愿望度。 U(S)表示与状态S一致的效用。 贝努利的货币效用曲线 期望效用 对于智能体而言,一个非确定性的行动A将具有可能的结果状态Result_i(A),智能体为每个结果赋以概率P(Result_i(A) | Do(A),E),其中E综合了智能体关于世界的可用信息,Do(A)是在当前状态下执行行动A的命题。 基于效用的有哪些信誉好的足球投注网站策略 初始化URL队列和 爬虫积分 URL效用计算 下载期望效用最大页面 1,提取页面内容并计算 主题相关性 2,提取主题相关链接 达到结束条件? 将所有主题相关链接 加入URL队列 退 出 Y N 更新爬虫当前积分 爬虫算法适用效用曲线与公式

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档