- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web Spider的原理与结构 (二) Web Spider的Url检索算法 引 言 Web Spider的url处理过程简介 在信息采集的过程中,为了避免重复采集相同的页面,需要记住已经发现的页面(包括已经采集过的页面,正在采集的页面和等待采集的页面)。采集中凡遇到一个页面,需要判断该页面的URL是否已发现的url。若不是新发现的url,则将其丢弃;否则将它放入待采集url队列。 引言 url检索算法的速度和所占用的内存空间的大小都什么重要。 特别是在有中心节点的分布式Web Spider中,如果url检索算法的速度较慢的话就会在中心节点形成瓶颈,严重影响整个系统的采集速度和可扩展性。 现有算法占用存储空间较大,对重复率高的url集合检索速度较慢。 Rabin指纹算法 Rabin指纹生成算法基于由美国哈佛大学教授拉宾(Rabin)提出的方法,其思想如下: Rabin算法性质 拉宾的方案具有如下性质: 如果字符串A的指纹不同于字符串B的指纹,那么字符串A也不同于字符串B:f(A)≠f(B)=A≠B 运算速度较快 3 RP算法 基本思想: RP算法算法描述 RP算法特点 记录一条url只需一位 判断url是否已经访问过时,只需用索引寻址,即基址加上偏移量,对相应的位的状态进行判断即可。这样即简化了检索的过程,提高了检索速度,又有效地节省了存储空间。 实验 分析 HfIp为hash函数的算法中,当一个要检索的url的hash值对应的地址已经保存有url时必须要进行字符串的匹配。从网上采集的url中重复的较多,那么这种字符串匹配是经常发生的。当两个较长的url重复时,就可能得进行上百次字符的匹配,所以严重影响了检索的效率,用时较多,速度较慢。随着实验的url数量增加,这种字符串比较发生得越频繁,速度就更慢。但是RP算法则不存在这样的情况,对每个url的比较都是一次一个位的状态的判断而已,所以用时较少,速度较快。 相关算法研究比较 查找树 Igloo1.2用的就是用Tries树进行url检索的。 Trie树利用字符串的公共前缀来节约存储空间。用于url检索时,检索算法的时间代价是O(n),其中n是Trie树的层数(包括分支结点和元素结点在内),也就是url的字符串长度。 查找树 但是,url的组成除了字母外还包括一些符号等,平均长度也要50个字符以上,某些较长的url要超过100个字符,那么除了较靠近根的节点由于存储的都是协议部分而孩子节点较少,其他的一般都有几十个孩子节点,树高要超过50,每个节点存储一个字符,这也需要很大的空间,一般内存空间是无法承受的。而且一次检索都要做几十次甚至上百次字符比较,使得检索速度较慢。 hash算法 首先用一个hash函数计算url的hash值,然后到hash值对应的地址去检索,如果该地址未存储url则此url为新发现的url,将其存储到此地址;如果该地址已经存储了url则同该地址处的url逐一进行比较(链式解决冲突的情况下),找到相同的url,则此url不是新发现的,做丢弃处理,未找到则将其添加到此链表中。 hash算法 用hash算法对url进行检索,要存储url,占用存储空间较大。在检索过程中根据url的hash值寻址,大大提高了检索速度,但是当url重复率较高的时候,这种方法就不得不进行较多的字符串匹配操作,这将严重影响url的检索速度,然而,Web Spider采集过程中从页面解析出来的url却是重复率非常高的。所以这种算法应用在Web Spider上进行url检索,也很难获得十分理想的效果。 其他基于Rabin算法的url检索算法 chao设计了一个基于Rabin指纹算法的url检索算法。该算法将通过Rabin算法计算得到的url的指纹映射成16进制数组成的字符串,再把此字符串存储在一棵键树中,然后利用此键树对url检索。 Chao算法与RP算法比较 鸣谢 感谢陈涛师弟对本环节的实验提供大力支持 RP算法的局限 对小量的url检索没有优势 可能发生冲突 美丽的梦想 记忆函数 设计一个函数F=f(x),F的初态f(x0)。现x=a经过f(a)计算得到F’。当下个数据x’参加计算得到F’’,我们就能通过F’’判断出x’是否等于a。 心得体会 实验是一种研究,探索和验证方法,所以不要在实验前就把实验结果定下来了。 注意多交流和自己表述的准确性,使我们的实验室真正成为一个研究的团队。 执着和自信能给你带来无穷的力量 抓住一闪而过的灵感 The End Thank you! * * * 该算法所需空间上界和R
您可能关注的文档
- vf课件第1章:数据库概述.ppt
- VHDL与数字电路设计.ppt
- VHDL的结构体描述方式.ppt
- VHDL的结构和实体介绍.ppt
- VHDL讲义第三章VHDL的结构.ppt
- VHDL语言进行集成电路设计.ppt
- VHDL课程设计(通信电子专业).ppt
- VHDL顺序语句(Sequential).ppt
- Ving作表语宾补定语.ppt
- VIN码及相关知识培训.ppt
- 2024年度党员干部民主生活会班子对照检查材料.docx
- 公司党委领导班子2024年度民主生活会对照检查材料4个带头方面.docx
- 市府办(政府办)领导班子2024年民主生活会会后综合情况报告.docx
- 在2025年市司法局信息宣传工作推进会上的讲话.docx
- 在2025年全省文化旅游高质量发展推进会上的讲话.docx
- 在2025年全区工业、住建大规模设备更新推进会上的讲话.docx
- 党支部2024年组织生活会民主评议党员情况总结报告_1.docx
- 2024年度组织生活会个人对照检查剖析材料.docx
- 镇党委书记2024年度民主生活会对照检查材料1.docx
- 党支部2024年组织生活会民主评议党员情况总结报告.docx
文档评论(0)