山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》【精选】.doc

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》【精选】.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》【精选】.doc

大学课件 PAGE 大学教育 大学课件 大学教育 山东建筑大学 课 程 设 计 成 果 报 告 题 目: 基于Python的网络爬虫设计 课 程: 计算机网络A 院 (部): 管理工程学院 专 业: 信息管理与信息系统 班 级: 学生姓名: 学 号: 指导教师: 完成日期: 大学教育 目 录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc1984 1 设计目的 PAGEREF _Toc1984 1 HYPERLINK \l _Toc21183 2 设计任务内容 PAGEREF _Toc21183 1 HYPERLINK \l _Toc31377 3 网络爬虫程序总体设计 PAGEREF _Toc31377 1 HYPERLINK \l _Toc3037 4 网络爬虫程序详细设计 PAGEREF _Toc3037 1 HYPERLINK \l _Toc5152 4.1 设计环境和目标分析 PAGEREF _Toc5152 1 HYPERLINK \l _Toc913 4.1.1 设计环境 PAGEREF _Toc913 1 HYPERLINK \l _Toc9857 4.1.2 目标分析 PAGEREF _Toc9857 2 HYPERLINK \l _Toc3097 4.2 爬虫运行流程分析 PAGEREF _Toc3097 2 HYPERLINK \l _Toc18826 4.3 控制模块详细设计 PAGEREF _Toc18826 3 HYPERLINK \l _Toc31291 4.3 爬虫模块详细设计 PAGEREF _Toc31291 3 HYPERLINK \l _Toc21002 4.3.1 URL管理器设计 PAGEREF _Toc21002 3 HYPERLINK \l _Toc19372 4.3.2 网页下载器设计 PAGEREF _Toc19372 3 HYPERLINK \l _Toc10307 4.3.3 网页解析器设计 PAGEREF _Toc10307 3 HYPERLINK \l _Toc21226 4.4数据输出器详细设计 PAGEREF _Toc21226 4 HYPERLINK \l _Toc16859 5 调试与测试 PAGEREF _Toc16859 4 HYPERLINK \l _Toc22474 5.1 调试过程中遇到的问题 PAGEREF _Toc22474 4 HYPERLINK \l _Toc8042 5.2测试数据及结果显示 PAGEREF _Toc8042 5 HYPERLINK \l _Toc22319 6 课程设计心得与体会 PAGEREF _Toc22319 5 HYPERLINK \l _Toc17183 7 参考文献 PAGEREF _Toc17183 6 HYPERLINK \l _Toc18437 8 附录1 网络爬虫程序设计代码 PAGEREF _Toc18437 6 HYPERLINK \l _Toc6111 9 附录2 网络爬虫爬取的数据文档 PAGEREF _Toc6111 9 1 设计目的 本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务: 1.巩固和加深学生对计算机网络基本知识的理解和掌握; 2.培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力; 3.提高学生进行技术总结和撰写说明书的能力。 2 设计任务内容 网络爬虫是从web中发现,下载以及存储内容,是有哪些信誉好的足球投注网站引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 参照开放源码分析网络爬虫实现方法,给出设计方案,画出设计流程图。 选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。 3 网络爬虫程序总体设计 URL管理器 URL管理器 数据输出器网页下载器网页解析器爬虫控制器 数据输出器 网页下载器 网页解析器 爬虫控制器 在本爬虫程序中共有三个模块: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况 爬虫模块:包含三个小模块,URL管理器、网页下载器、网页解析器。 URL管理器:对需要

您可能关注的文档

文档评论(0)

liuxiaoyu92 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档