分布式Web Crawler系统研究与实现-计算机应用技术专业论文.docx

下载文档 降价啦

2
0
约6.16万字
约 73页
2018-11-28 发布于上海
举报
版权申诉
保障服务

分布式Web Crawler系统研究与实现-计算机应用技术专业论文.docx

1、本文档共73页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式Web Crawler系统研究与实现-计算机应用技术专业论文

I I 摘要随着互联网的爆炸性增长，Web 已经发展成为站点遍布全球的巨大信息服务网络，根据 CNNIC 统计，截至 2008 年底，仅中国网页总数就超过 160 亿个，较 2007 年增长 90%。网页的增长速度与网站的增速基本一致。面对如此巨大的信息库，如何快速准确的检索到自己需要的信息呢？有哪些信誉好的足球投注网站引擎已经成为 Web 信息获取的一种最重要的手段。索引网页数量的大小、质量是评价一个有哪些信誉好的足球投注网站引擎好坏的重要指标。因此，Web 爬虫 (Crawler)作为有哪些信誉好的足球投注网站引擎的首要组成部分，是一个好的有哪些信誉好的足球投注网站引擎的重要基础。出于商业机密的考虑，目前各个有哪些信誉好的足球投注网站引擎使用的 Crawler 系统的技术内幕一般都不公开。现有的文献也仅限于概要性介绍。本文的目标就是研究、设计并实现一个分布式 Web Crawler 系统。本文通过分析有哪些信誉好的足球投注网站引擎的系统组成引出了文章的重点—Web 爬虫。并以一个简单的爬虫系统为依托，详细分析了 Web 爬虫的构建的基本原理。通过研究爬虫系统的抓取策略、重访策略、礼貌性问题等，进一步深入分析了爬虫的核心工作原理。本文设计了具有实用性的分布式 Web Crawler 体系结构，提出一种分布式合作抓取算法解决爬虫分布式抓取难题，并提出了一种改进的大规模网页存储结构，能同时满足大量的随机访问，以及大量新增网页的需要。最后设计并开发分布式 Web Crawler 系统，并对爬虫系统的未来给出了展望。本文的具体工作如下： (1) 深入研究爬虫系统的抓取策略其中包括网页抓取优先策略、不重复抓取策略，重点分析了网页重访策略以及爬虫礼貌性问题。 (2) 设计具有实用性的分布式 Web Crawler 体系结构，在追求负载均衡的同时将系统的通信和管理开销降到最低。 (3) 提出一种分布式合作抓取算法，根据 RMI 分布式系统的开发过程，解决爬虫分布式抓取难题。 (4) 提出一种改进的大规模网页存储结构 Hash-Log，能够适应随机访问及顺序访问的不同需求。 (5) 设计并开发分布式 Web Crawler 系统，并从性能、可扩展性以及负载均衡等多个方面分析了爬虫的运行结果，达到了非常满意的效果。关键词：有哪些信誉好的足球投注网站引擎；Web 爬虫；抓取策略；分布式系统；网页库 II II Abstract With the explosive growth of the Internet, Web has become a huge worldwide network of information services. According to CNNIC statistics, At the end of 2008, Only the total number of Chinese web pages are more than 160 billion, Increase of 90% over 2007. The growth rate of web pages and websites is basically the same. Faced with such a huge information base, How to retrieval of the information that we need fast and accurate? Search Engine has become one of the most important means of web information access. The number of indexed pages and page quality are important indicators of a search engine. Therefore, Web Crawler, as a primary component of search engine, is an important foundation for good search engine. At present, because of commercial confidentiality considerations, the various search engines techology of Crawler are generally not open. The available literature is limited to summary introduction. The purpose of this paper is to study, design and implement a distributed Web Crawler system. Through analyze sear