网站大量收购独家精品文档,联系QQ:2885784924

信息爬取模块.pptxVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息爬取模块.pptx

面向优酷视频网站信息采集的网络爬虫 2018 组长:熊嘉玮 组员:陈俊宇、陈攀登、王鹏 目录/Contents 项目介绍 网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,是有哪些信誉好的足球投注网站引擎的重要组成部分。 本项目是基于Python的面向优酷视频网站信息采集的网络爬虫,能够采集用户输入视频的相关信息,如:视频名称、地区、简介等,并能将这些信息输入到数据库。 本项目的目标网址是,使用的是Python 2.7版本,数据库是MySQL。 01 开发目标 项目目标: 功能目标: 1.接受用户输入的视频名称; 2.爬取视频的链接、名称、地区、集数、配音/主演、简介、评分、播放量等内容; 3.将爬取到的信息导入到数据库。 性能目标: 1.程序能够在5s内反馈相应信息; 2.程序具有一定的使用性,操作简单,易于理解。 02 项目设计 03 项目模块/module 优酷视频爬虫程序 网页请求模块 信息爬取模块 数据库导入模块 模块设计/module 网页请求模块: 通过分析,可以发现用户访问有哪些信誉好的足球投注网站视频时,将用户输入的视频名称连接在“/search_video/q_”后。 本程序: 1.通过一个self.furl变量来保存“/search_video/q_”; 2.获取用户输入的视频信息,并将其转换为URL编码; 3.将两者组装成最终要请求的URL; 4.请求最终的URL。 模块设计/module 信息爬取模块: 对请求URL返回的网页信息进行分析,并使用BeautifulSoup库提取出HTML标签中的内容,进行数据爬取。 本程序: 1.创建一个BeautifulSoup对象,并通过lxml解析器解析; 2.对要爬取的视频信息,匹配其标签; 3.提取标签内容。 模块设计/module 数据库导入模块: 将获取的信息存储到MySQL数据库中 本程序: 1.先连接数据库; 2.执行拼接好的MySQL语句,插入数据; 3.关闭数据库连接。 首先接受用户输入的视频名称 将视频名称编码,转换成完整的将要进行操作的URL 请求URL,获取返回的Page 对获取的网页信息进行分析,匹配要爬取信息的属性、名称等 01 02 03 04 输入文本 工作流程/workflow 05 将爬取到的信息保存到列表,并导入数据库 测试分析 04 数据爬取 数据存入数据库 信息分类 性能 测试结果 测试模块 输入 预期处理 实际输出/执行结果 是否正确 数据爬取 给定网址 将网址中数据正确爬取出来 网址中的数据 正确 数据信息分类 数据信息 按照给定的规则将信息分类 将数据正确分类 正确 数据存入数据库 一组分过类数据信息 将数据信息按照分类分别存入相应的类别 按照数据信息的分类分别存入相应的类别 正确 性能 电影名字 程序从执行到将数据打印到屏幕上不超过三秒 三秒内均能执行完毕 正确 总结 05 总结 本次课程设计为面向优酷视频网站信息采集的网络爬虫,在项目的设计与实现过程中,小组成员积极学习python语言,分工明确,严谨编码,最终出色地完成了此爬虫程序。程序实现了用户输入、爬取视频相应信息、导入数据库等基本功能。 美中不足的是代码优化方面稍有欠缺,每次导入数据都要重新打开关闭一次数据库,之后的优化中将尝试把连接数据库部分的代码放在程序首部,减少程序在打开关闭数据库中的时间损耗。并且,程序未实现下载视频的附加功能,下一步也将重点研究实现。 Thank you 2018

您可能关注的文档

文档评论(0)

189****0315 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档