网站大量收购闲置独家精品文档,联系QQ:2885784924

网络爬虫的设计与实现-毕业设计.doc

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫的设计与实现-毕业设计

毕 业 论 文 论文题目 网络爬虫的设计与实现 摘 要 随着互联网的发展以及网上信息的日益丰富,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时,常常要将分布在互联网各处的Web页面下载到本地供进一步处理。这便是所讨论的Web页面搜集工具——网络爬虫系统的核心功能。由于通用有哪些信誉好的足球投注网站引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高、越来越细,基于整个Web 的信息采集越来越力不从心。同时它也无法迅速地搜集到足够的必威体育精装版的网络信息,也不能满足人们日益增长的个性化需求。 本文所述的网络爬虫程序是采用Java和MySql 5.0实现的。随着网络的迅速发展,万维网成为大量信息的载体,1 绪论 1 1.1概述 1 1.2 研究的意义 1 1.3 所开发的语言简介 2 1.4 本文技术介绍 2 1.4.1 Swing编程 3 1.4.2 多线程工作模式简介 3 1.4.3 JDBC访问数据库 5 2 系统总体分析与设计 7 2.1 系统需求分析 7 2.1.1系统总体用例图 7 2.1.1需求细分 7 2.2 系统技术 10 2.2.1有哪些信誉好的足球投注网站抓取策略比较 10 2.2.2正则表达式 13 2.2.3 字符串压缩算法分析 14 3 系统实现 15 3.1开发平台 15 3.2总体结构 16 3.2.1 分层结构 16 3.2.2 包结构 16 3.3各模块功能实现 16 3.2.1 网页下载模块 16 3.2.2 网页分析模块 18 3.2.3 pageRank计算模块 20 3.2.4 网页去重模块 21 3.2.5 网页的数据库管理模块(DAO) 22 3.2.6 工具包 23 4 数据库设计与实现 24 4.1 数据库表概念结构设计 24 4.2 数据库表逻辑结构设计 24 5 总结 26 参 考 文 献 27 英 文 摘 要 28 致 谢 29 仲恺农业工程学院毕业论文(设计)成绩评定表 30 1 绪论 1.1概述 随着互联网技术的不断发展,互联网信息呈现着爆炸式的增长,同时互联网用户对信息的需求也在不断增长,在巨大的用户需求中,有哪些信誉好的足球投注网站引擎应运而生,其中Google和百度分别是国内外两大顶级的通用有哪些信誉好的足球投注网站引擎,拥有着庞大的用户数量。但是随着用户对信息需求的不断具体化与精确化,通用有哪些信誉好的足球投注网站引擎中抓取的广度、有哪些信誉好的足球投注网站的精确度与更新的速度这三大难题阻碍着其满足互联网用户对信息具体化和精确化需求,因此主题有哪些信誉好的足球投注网站开始出现。主题有哪些信誉好的足球投注网站是针对某一个专门领域的信息进行有哪些信誉好的足球投注网站,满足互联网用户对信息具体化和精确化的需求。 无论是通用有哪些信誉好的足球投注网站引擎,还是主题有哪些信誉好的足球投注网站引擎,网络爬虫(Web Crawler)在其中都扮演着重要的角色。网络爬虫是有哪些信誉好的足球投注网站引擎获取网页的主要工具,有哪些信誉好的足球投注网站引擎通常在网络爬虫所抓取的网页中对用户的有哪些信誉好的足球投注网站进行匹配,从而得到有哪些信誉好的足球投注网站结果提供给用户。网络爬虫的有哪些信誉好的足球投注网站策略是网络爬虫的实现关键,是有哪些信誉好的足球投注网站引擎的核心技术,同时也通用有哪些信誉好的足球投注网站与主题有哪些信誉好的足球投注网站的最大区别之所在。 本文对当前有哪些信誉好的足球投注网站引擎中的集中有哪些信誉好的足球投注网站策略进行介绍与比较, 研究其中主题有哪些信誉好的足球投注网站较适合的有哪些信誉好的足球投注网站策略,并在此基础上,使用Java多线程实现网络爬虫。 网络爬虫系统的最大特色是采用多网络爬虫线程并行工作的方式, 每一个网 络爬虫爬取某一个具体的Web站点。这样做的优点有: 1.多线程并发工作的,提高了爬取效率; 2.对一个站点并发搜集的线程数目为1,从而避免了对搜集站点的攻击,防止了Web 服务器预备队列的溢出; 3. 与用户的可交互性强,站点在经过用户审核后才交给网络爬虫爬取。从而使用户可以控制网络爬虫系统爬取的方向。 1.2 研究的意义 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。有哪些信誉好的足球投注网站引擎(Search Engine),例如传统的通用有哪些信誉好的足球投注网站引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性有哪些信誉好的足球投注网站引擎也存在着一定的局限性,如:(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用有哪些信誉好的足球投注网站引擎所返回的结果包含大量用户不关心的网页。 (2) 通用有哪些信誉好的足球投注网站引擎的目标是尽可能大的网络覆盖率,有限的有哪些信誉好的足球投注网站引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用有哪些信誉好的足球投注网站引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 (4) 通用有哪些信誉好的足球投注网站引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档