- 1、本文档共73页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式Web Crawler系统研究与实现-计算机应用技术专业论文
I
I
摘 要
随着互联网的爆炸性增长,Web 已经发展成为站点遍布全球的巨大信息服务网络,根 据 CNNIC 统计,截至 2008 年底,仅中国网页总数就超过 160 亿个,较 2007 年增长 90%。 网页的增长速度与网站的增速基本一致。面对如此巨大的信息库,如何快速准确的检索到 自己需要的信息呢?有哪些信誉好的足球投注网站引擎已经成为 Web 信息获取的一种最重要的手段。
索引网页数量的大小、质量是评价一个有哪些信誉好的足球投注网站引擎好坏的重要指标。因此,Web 爬虫 (Crawler)作为有哪些信誉好的足球投注网站引擎的首要组成部分,是一个好的有哪些信誉好的足球投注网站引擎的重要基础。出于商业机密 的考虑,目前各个有哪些信誉好的足球投注网站引擎使用的 Crawler 系统的技术内幕一般都不公开。现有的文献也 仅限于概要性介绍。
本文的目标就是研究、设计并实现一个分布式 Web Crawler 系统。本文通过分析有哪些信誉好的足球投注网站 引擎的系统组成引出了文章的重点—Web 爬虫。并以一个简单的爬虫系统为依托,详细分 析了 Web 爬虫的构建的基本原理。通过研究爬虫系统的抓取策略、重访策略、礼貌性问题 等,进一步深入分析了爬虫的核心工作原理。本文设计了具有实用性的分布式 Web Crawler 体系结构,提出一种分布式合作抓取算法解决爬虫分布式抓取难题,并提出了一种改进的 大规模网页存储结构,能同时满足大量的随机访问,以及大量新增网页的需要。最后设计 并开发分布式 Web Crawler 系统,并对爬虫系统的未来给出了展望。
本文的具体工作如下:
(1) 深入研究爬虫系统的抓取策略其中包括网页抓取优先策略、不重复抓取策略,重 点分析了网页重访策略以及爬虫礼貌性问题。
(2) 设计具有实用性的分布式 Web Crawler 体系结构,在追求负载均衡的同时将系统 的通信和管理开销降到最低。
(3) 提出一种分布式合作抓取算法,根据 RMI 分布式系统的开发过程,解决爬虫分布 式抓取难题。
(4) 提出一种改进的大规模网页存储结构 Hash-Log,能够适应随机访问及顺序访问的 不同需求。
(5) 设计并开发分布式 Web Crawler 系统,并从性能、可扩展性以及负载均衡等多个 方面分析了爬虫的运行结果,达到了非常满意的效果。
关键词:有哪些信誉好的足球投注网站引擎;Web 爬虫;抓取策略;分布式系统;网页库
II
II
Abstract
With the explosive growth of the Internet, Web has become a huge worldwide network of information services. According to CNNIC statistics, At the end of 2008, Only the total number of Chinese web pages are more than 160 billion, Increase of 90% over 2007. The growth rate of web pages and websites is basically the same. Faced with such a huge information base, How to retrieval of the information that we need fast and accurate? Search Engine has become one of the most important means of web information access.
The number of indexed pages and page quality are important indicators of a search engine. Therefore, Web Crawler, as a primary component of search engine, is an important foundation for good search engine. At present, because of commercial confidentiality considerations, the various search engines techology of Crawler are generally not open. The available literature is limited to summary introduction.
The purpose of this paper is to study, design and implement a distributed Web Crawler system. Through analyze sear
您可能关注的文档
- 代谢综合征患者糖化血红蛋白与HDL亚类分布的相关性分析-生物化学与分子生物学专业论文.docx
- 代谢综合征患者自主神经功能紊乱及相关因素分析-内科学专业论文.docx
- 代谢综合征患者血清胆红素水平变化及其影响因素-内科学专业论文.docx
- 代谢综合征患者脑部磁共振弥散张量成像研究-临床医学(神经内科)专业论文.docx
- 代谢综合征患者血浆网膜素-1与HDL亚类分布的关系-生物化学与分子生物学专业论文.docx
- 代谢综合征相关因素与胃食管反流病的两种亚型的关系研究-内科学(消化)专业论文.docx
- 代谢综合症患者血浆白介素-6与HDL亚类的关系-生物化学与分子生物学专业论文.docx
- 代谢网络模型运输反应添加及其在副产物分析中的应用-生物化工专业论文.docx
- 代谢网络社团结构分析-软件工程专业论文.docx
- 代谢酶、转运体及靶标基因多态性对奥氮平 血药浓度及药效学影响-药理学专业论文.docx
文档评论(0)