- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》【精选】.doc
大学课件
PAGE
大学教育
大学课件
大学教育
山东建筑大学
课 程 设 计 成 果 报 告
题 目: 基于Python的网络爬虫设计
课 程: 计算机网络A
院 (部): 管理工程学院
专 业: 信息管理与信息系统
班 级:
学生姓名:
学 号:
指导教师:
完成日期:
大学教育
目 录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc1984 1 设计目的 PAGEREF _Toc1984 1
HYPERLINK \l _Toc21183 2 设计任务内容 PAGEREF _Toc21183 1
HYPERLINK \l _Toc31377 3 网络爬虫程序总体设计 PAGEREF _Toc31377 1
HYPERLINK \l _Toc3037 4 网络爬虫程序详细设计 PAGEREF _Toc3037 1
HYPERLINK \l _Toc5152 4.1 设计环境和目标分析 PAGEREF _Toc5152 1
HYPERLINK \l _Toc913 4.1.1 设计环境 PAGEREF _Toc913 1
HYPERLINK \l _Toc9857 4.1.2 目标分析 PAGEREF _Toc9857 2
HYPERLINK \l _Toc3097 4.2 爬虫运行流程分析 PAGEREF _Toc3097 2
HYPERLINK \l _Toc18826 4.3 控制模块详细设计 PAGEREF _Toc18826 3
HYPERLINK \l _Toc31291 4.3 爬虫模块详细设计 PAGEREF _Toc31291 3
HYPERLINK \l _Toc21002 4.3.1 URL管理器设计 PAGEREF _Toc21002 3
HYPERLINK \l _Toc19372 4.3.2 网页下载器设计 PAGEREF _Toc19372 3
HYPERLINK \l _Toc10307 4.3.3 网页解析器设计 PAGEREF _Toc10307 3
HYPERLINK \l _Toc21226 4.4数据输出器详细设计 PAGEREF _Toc21226 4
HYPERLINK \l _Toc16859 5 调试与测试 PAGEREF _Toc16859 4
HYPERLINK \l _Toc22474 5.1 调试过程中遇到的问题 PAGEREF _Toc22474 4
HYPERLINK \l _Toc8042 5.2测试数据及结果显示 PAGEREF _Toc8042 5
HYPERLINK \l _Toc22319 6 课程设计心得与体会 PAGEREF _Toc22319 5
HYPERLINK \l _Toc17183 7 参考文献 PAGEREF _Toc17183 6
HYPERLINK \l _Toc18437 8 附录1 网络爬虫程序设计代码 PAGEREF _Toc18437 6
HYPERLINK \l _Toc6111 9 附录2 网络爬虫爬取的数据文档 PAGEREF _Toc6111 9
1 设计目的
本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务:
1.巩固和加深学生对计算机网络基本知识的理解和掌握;
2.培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力;
3.提高学生进行技术总结和撰写说明书的能力。
2 设计任务内容
网络爬虫是从web中发现,下载以及存储内容,是有哪些信誉好的足球投注网站引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
参照开放源码分析网络爬虫实现方法,给出设计方案,画出设计流程图。
选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。
3 网络爬虫程序总体设计
URL管理器
URL管理器
数据输出器网页下载器网页解析器爬虫控制器
数据输出器
网页下载器
网页解析器
爬虫控制器
在本爬虫程序中共有三个模块:
爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况
爬虫模块:包含三个小模块,URL管理器、网页下载器、网页解析器。
URL管理器:对需要
您可能关注的文档
- 对项目部安全技术交底【精选】.doc
- 寻宝游戏任务书【精选】.doc
- 小升初必背文学常识【精选】.doc
- 小升初文学常识【精选】.doc
- 小型建筑工程施工合同(范本)【精选】.doc
- 小学一年级校本教材《体育游戏》【精选】.doc
- 小学三年级爱国演讲稿(精选多篇)【精选】.doc
- 小学体育教案 走与游戏【精选】.doc
- 小学公开课实施方案【精选】.doc
- 小学四年级地方课程传统文化教案山东大学版【精选】.doc
- 常见文言固定句式(其它文言句式22个).pptx
- 第27课 中国特色社会主义的开创与发展--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
- 第28课 改革开放和社会主义现代化建设的巨大成就--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
- 第1课 中华文明的起源与早期国家--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
- 第21课 南京国民政府的统治和中国共产党开辟革命新道路--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
- 第15课 两次鸦片战争--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
- 第1章 遗传因子的发现--人教版(2019)必修二生物单元测试A卷.docx
- 第20课 五四运动与中国共产党的诞生--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
- 第24课 人民解放战争--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
- 第9课 两宋的政治和军事--高一历史人教统编版中外历史纲要上册课时优化训练(含答案).docx
文档评论(0)