- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
课程设计综合实报验告格式
课程设计报告
( 2010 -- 2011 年度第 一 学期)
名 称: 《软件设计与实践》课程设计
题 目: 网络爬虫研究与应用
院 系: 计算机系
班 级:
学 号:
学生姓名:
指导教师: 软件设计与实践教学组
设计周数: 两周
成 绩:
日期: 2011 年 1 月 14 日《软件设计与实践》课程设计
任 务 书
一、 目的与要求
了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架;
开发平台采用JDK 1.60 eclipse集成开发环境。
二、 主要内容
了解网络爬虫的构架,熟悉网页抓取的整个流程。
学习宽度优先和深度优先算法,实现宽度crawler应用程序的编写、调试和运行。
学习主题爬行及内容分析技术。
实现网络爬虫的基本框架。
三、 进度计划
序号 设计(实验)内容 完成时间 备注 1 对网络爬虫程序进行初步认识 2011-1-5 2 学习算法 2011-1-7 3 设计爬虫的框架,划分功能模块 2011-1-10 4 代码实现及调试 2011-1-13 5 验收、撰写报告 2011-1-14 四、 设计成果要求
要求按时按量完成所规定的实验内容;
界面设计要求友好、灵活、易操作、通用性强、具有实用性;
基本掌握所采用的开发平台。
五、 考核方式
平时成绩+验收+实验报告。
学生姓名:于兴隆
指导教师:王蓝婧
2011 年 1 月 2 日
课程设计
为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
2.网络爬虫
2.1 Internet上的网页关系建模
如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个Internet上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到Internet上的几乎所有的网页。
图 1. 网页关系的建模图
2.2有哪些信誉好的足球投注网站引擎的分类和整体结构
2.2.1分类 :有哪些信誉好的足球投注网站引擎虽然所采用的技术和实现的方法各有不同,但是总体来说可以分为两类,一种是基于目录的有哪些信誉好的足球投注网站引擎,另一种是基于全文检索的有哪些信誉好的足球投注网站引擎。
2.2.2整体结构: 目前,在国内外各主要商业有哪些信誉好的足球投注网站引擎在技术上主要使用了全文检索技术,下图为基于使用全文检索技术的有哪些信誉好的足球投注网站引擎的整体结构。基于全文检索技术的有哪些信誉好的足球投注网站引擎主要由三部分组成,如图所示,信息采集器(网络爬虫),索引器、有哪些信誉好的足球投注网站接口。
图2 有哪些信誉好的足球投注网站引擎的整体结构
2.3网络爬虫:
2.3.1定义:网络爬虫是一个自动提取网页的程序,它为有哪些信誉好的足球投注网站引擎从Web上下载网页,是有哪些信誉好的足球投注网站引擎的重要组成部分。
2.3.2基本原理:爬虫从一个或若干初始网页的URL 开始,通过分析该URL 的源文件,提取出新的网页链接,继而通过这些链接继续寻找新的链接,这样一直循环下去,直到抓取并分析完所有的网页为止。当然这是理想状态下爬虫的执行过程,但是实际上要抓取Internet上所有的网页是不可能完成的。从目前公布的数据来看,最好的有哪些信誉好的足球投注网站引擎也只不过抓取了整个Internet40%的网页。这有两个原因,其一是网络爬虫设计时的抓取技术瓶颈造成的,无法遍历所有的网页,很多网页链接不能从其他网页中得到。其二是存储技术和处理技术造成的,如果按照每个页面的平均的大小是20K,那么100 亿个页面的大小就是200000G,对于现在的存储技术来说是个挑战。
2.3.3爬行策略:
(1)广度优先:
广度优先有哪些信誉好的足球投注网站策略是指在抓取过程中,在完成当前层次的有哪些信誉好的足球投注网站后,才进行下一层次的有哪些信誉好的足球投注网站。该算法的设计和实现相对简单,可以覆盖尽可能多的网页。本课题采用广度优先策略。
对图1 中的节点进行访问:1--2--3--4--5--6--7--8
(2)深度优先:
深度优先有哪些信誉好的足球投注网站策略是一种在开发Spider 的早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路
您可能关注的文档
- 压力容器设计及车间设计文献综述.doc
- 课程标准近现史代纲要.doc
- 原告与被告尤某尤某尤某尤某金融借款合同纠纷一案.doc
- 课程标准通知.doc
- 课程标准针织服设装计与工艺.doc
- 课程标准高中物理教科书人(教版).doc
- 课程标准:财税员人沟通技巧课程标准.doc
- 原因分析型综合题.doc
- 原始记录填写说明.doc
- 课程框架问题计设样例.doc
- 甘肃省白银市会宁县第一中学2025届高三3月份第一次模拟考试化学试卷含解析.doc
- 2025届吉林市第一中学高考考前模拟生物试题含解析.doc
- 四川省三台县芦溪中学2025届高三下第一次测试生物试题含解析.doc
- 2025届江苏省启东市吕四中学高三适应性调研考试历史试题含解析.doc
- 浙江省宁波市十校2025届高三二诊模拟考试历史试卷含解析.doc
- 甘肃省甘南2025届高考生物必刷试卷含解析.doc
- 河北省石家庄市一中、唐山一中等“五个一”名校2025届高考历史四模试卷含解析.doc
- 江西省南昌市进贤一中2025届高考生物考前最后一卷预测卷含解析.doc
- 甘肃省白银市会宁县第四中学2025届高三第二次模拟考试历史试卷含解析.doc
- 宁夏银川市宁夏大学附属中学2025届高考化学押题试卷含解析.doc
文档评论(0)