网站大量收购闲置独家精品文档,联系QQ:2885784924

网络空间安全概论 实验7网络爬虫 豆瓣电影热门榜单的爬虫.docx

网络空间安全概论 实验7网络爬虫 豆瓣电影热门榜单的爬虫.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE2

中国矿业大学计算机学院

2019级本科生课程报告

课程名称信息内容安全

报告题目豆瓣电影热门榜单的爬虫

报告时间2022.6.30

姓名钟昌甫

学号

任课教师曹天杰

2021-2022(二)《信息内容安全》评分表

考核类别

考核内容

支撑课程目标

试题类型与分值比例

分数

结课考核

课程报告(论文综述、设计、实现、写作规范)

目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。

课程报告,100%

过程考核

1.基本概念、原理

目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。

系统演示及解说,30%

2.系统设计与分析

目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。

PPT讲解与答辩,50%

3.基本概念、原理

目标1

作业或测试,20%

结课考核与过程考核比例

结课考核:60%

过程考核:40%

评阅人:

2022年7月10日

报告摘要

关键词:爬虫即网络爬虫,是一种自动获取网页内容的程序。是有哪些信誉好的足球投注网站引擎的重要组成部分,因此有哪些信誉好的足球投注网站引擎优化很大程度上就是针对爬虫而做出的优化。爬取豆瓣电影的热门榜,获取热门榜信息并生成excel文件实现数据可视化

报告正文

爬虫的基本工作流程及框架:

1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

人工操作步骤:

1.获取电影信息的网页;?

2.找到要评分信息的位置;?

3.复制、保存我们想要的评分数据。

爬虫操作步骤:

1.请求并下载电影页面信息;?

2.解析并定位评分信息;?

3.保存评分数据。

下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。

爬虫前python环境的安装:

打开cmd,输入以下指令:

pip?install?requests

pip?install?lxml

豆瓣网未登陆的情况下无法采集数据,requests.get会返回418,418的意思是被网站的反爬程序识别返回的结果,所以采集之前要先登录网站,并且复制网站的User-Agent和Cookie信息,并且把User-Agent和Cookie转化为字典格式,网页鼠标右键——检查——Network——Doc——F5刷新网址(这步很重要)——选择Name下面的‘top250?start=0filter=’——Headers——Cookie,User-Agent(位于cookie下面)

基础班代码(备注都已表明):fromfileinputimportfilename

importjson

importrequests

importpandas

frombs4importBeautifulSoup

#网址

url=/j/new_search_subjects?sort=Urange=0,10tags=start=0

#导航

header={User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/102.0.5005.124Safari/537.36Edg/102.0.1245.44}

#目的地

response=requests.get(url=url,headers=header)

#获取网页源代码

baoxian=response.text

#转变数据,将数据进行分层

data1=json.loads(baoxian)

#电影的数量

num=len(data1[data])

#设置表头以及规格

tou=[directors,rate,title

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档