- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课程设计报告
( 2010 -- 2011 年度第 一 学期)
名 称: 《软件设计与实践》课程设计
题 目: 网络爬虫研究与应用
院 系: 计算机系
班 级:
学 号:
学生姓名:
指导教师: 软件设计与实践教学组
设计周数: 两周
成 绩:
日期: 2011 年 1 月 14 日《软件设计与实践》课程设计
任 务 书
一、 目的与要求
了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架;
开发平台采用JDK 1.60 eclipse集成开发环境。
二、 主要内容
了解网络爬虫的构架,熟悉网页抓取的整个流程。
学习宽度优先和深度优先算法,实现宽度crawler应用程序的编写、调试和运行。
学习主题爬行及内容分析技术。
实现网络爬虫的基本框架。
三、 进度计划
序号 设计(实验)内容 完成时间 备注 1 对网络爬虫程序进行初步认识 2011-1-5 2 学习算法 2011-1-7 3 设计爬虫的框架,划分功能模块 2011-1-10 4 代码实现及调试 2011-1-13 5 验收、撰写报告 2011-1-14 四、 设计成果要求
要求按时按量完成所规定的实验内容;
界面设计要求友好、灵活、易操作、通用性强、具有实用性;
基本掌握所采用的开发平台。
五、 考核方式
平时成绩+验收+实验报告。
学生姓名:于兴隆
指导教师:王蓝婧
2011 年 1 月 2 日
课程设计
为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
2.网络爬虫
2.1 Internet上的网页关系建模
如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个Internet上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到Internet上的几乎所有的网页。
图 1. 网页关系的建模图
2.2有哪些信誉好的足球投注网站引擎的分类和整体结构
2.2.1分类 :有哪些信誉好的足球投注网站引擎虽然所采用的技术和实现的方法各有不同,但是总体来说可以分为两类,一种是基于目录的有哪些信誉好的足球投注网站引擎,另一种是基于全文检索的有哪些信誉好的足球投注网站引擎。
2.2.2整体结构: 目前,在国内外各主要商业有哪些信誉好的足球投注网站引擎在技术上主要使用了全文检索技术,下图为基于使用全文检索技术的有哪些信誉好的足球投注网站引擎的整体结构。基于全文检索技术的有哪些信誉好的足球投注网站引擎主要由三部分组成,如图所示,信息采集器(网络爬虫),索引器、有哪些信誉好的足球投注网站接口。
图2 有哪些信誉好的足球投注网站引擎的整体结构
2.3网络爬虫:
2.3.1定义:网络爬虫是一个自动提取网页的程序,它为有哪些信誉好的足球投注网站引擎从Web上下载网页,是有哪些信誉好的足球投注网站引擎的重要组成部分。
2.3.2基本原理:爬虫从一个或若干初始网页的URL 开始,通过分析该URL 的源文件,提取出新的网页链接,继而通过这些链接继续寻找新的链接,这样一直循环下去,直到抓取并分析完所有的网页为止。当然这是理想状态下爬虫的执行过程,但是实际上要抓取Internet上所有的网页是不可能完成的。从目前公布的数据来看,最好的有哪些信誉好的足球投注网站引擎也只不过抓取了整个Internet40%的网页。这有两个原因,其一是网络爬虫设计时的抓取技术瓶颈造成的,无法遍历所有的网页,很多网页链接不能从其他网页中得到。其二是存储技术和处理技术造成的,如果按照每个页面的平均的大小是20K,那么100 亿个页面的大小就是200000G,对于现在的存储技术来说是个挑战。
2.3.3爬行策略:
(1)广度优先:
广度优先有哪些信誉好的足球投注网站策略是指在抓取过程中,在完成当前层次的有哪些信誉好的足球投注网站后,才进行下一层次的有哪些信誉好的足球投注网站。该算法的设计和实现相对简单,可以覆盖尽可能多的网页。本课题采用广度优先策略。
对图1 中的节点进行访问:1--2--3--4--5--6--7--8
(2)深度优先:
深度优先有哪些信誉好的足球投注网站策略是一种在开发Spider 的早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。当
您可能关注的文档
- 计算机基础课程远程教学系统的设计与实现计算机论文.doc
- 局域网组建实习报告.doc
- 免费局域网监控软件网络人实现局域网监控最佳方案.doc
- 晶格邮箱 全球邮件收发安全畅通无忧 现时特价优惠活动.doc
- 领导班子思想政治建设长效机制问题研究.doc
- 某公司年会主持人串词.doc
- 计算机应用路由器破解.doc
- 流动人口管理服务工作的困难和出路.doc
- 机房设备监控系统(参考).doc
- 机房联网监控系统.doc
- 2024_2025学年高中英语Module2FantasyLiteraturePeriodOne教案含解析外研版选修6.docx
- 2024_2025学年高中历史第五单元近现代中国的先进思想第23课毛泽东与马克思主义的中国化课时作业岳麓版必修3.doc
- 江苏专版2024高考语文二轮复习小说文本阅读__群文通练改革留痕含解析.docx
- 2024_2025年高中语文第2单元6罗曼罗兰节选教案粤教版必修1.doc
- 江苏专版2025版高考英语考前保分训练专题1语法知识第3节名词性从句练习牛津译林版.docx
- 江苏专版2025版高考英语大二轮复习专题1语法知识第十一节名词与冠词学案牛津译林版.docx
- 2024_2025学年高中政治第二单元探索世界与追求真理第5课第1框意识的本质作业含解析新人教版必修4.doc
- 再生障碍性贫血讲.ppt
- 企业产品标准信息公共服务平台操作介绍.ppt
- 劳动法和劳动合同法的立法目的.ppt
文档评论(0)