- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE2
中国矿业大学计算机学院
2019级本科生课程报告
课程名称信息内容安全
报告题目豆瓣电影热门榜单的爬虫
报告时间2022.6.30
姓名钟昌甫
学号
任课教师曹天杰
2021-2022(二)《信息内容安全》评分表
考核类别
考核内容
支撑课程目标
试题类型与分值比例
分数
结课考核
课程报告(论文综述、设计、实现、写作规范)
目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。
课程报告,100%
过程考核
1.基本概念、原理
目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。
系统演示及解说,30%
2.系统设计与分析
目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。
PPT讲解与答辩,50%
3.基本概念、原理
目标1
作业或测试,20%
结课考核与过程考核比例
结课考核:60%
过程考核:40%
评阅人:
2022年7月10日
报告摘要
关键词:爬虫即网络爬虫,是一种自动获取网页内容的程序。是有哪些信誉好的足球投注网站引擎的重要组成部分,因此有哪些信誉好的足球投注网站引擎优化很大程度上就是针对爬虫而做出的优化。爬取豆瓣电影的热门榜,获取热门榜信息并生成excel文件实现数据可视化
报告正文
爬虫的基本工作流程及框架:
1.首先选取一部分精心挑选的种子URL;
2.将这些URL放入待抓取URL队列;
3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
人工操作步骤:
1.获取电影信息的网页;?
2.找到要评分信息的位置;?
3.复制、保存我们想要的评分数据。
爬虫操作步骤:
1.请求并下载电影页面信息;?
2.解析并定位评分信息;?
3.保存评分数据。
下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。
爬虫前python环境的安装:
打开cmd,输入以下指令:
pip?install?requests
pip?install?lxml
豆瓣网未登陆的情况下无法采集数据,requests.get会返回418,418的意思是被网站的反爬程序识别返回的结果,所以采集之前要先登录网站,并且复制网站的User-Agent和Cookie信息,并且把User-Agent和Cookie转化为字典格式,网页鼠标右键——检查——Network——Doc——F5刷新网址(这步很重要)——选择Name下面的‘top250?start=0filter=’——Headers——Cookie,User-Agent(位于cookie下面)
基础班代码(备注都已表明):fromfileinputimportfilename
importjson
importrequests
importpandas
frombs4importBeautifulSoup
#网址
url=/j/new_search_subjects?sort=Urange=0,10tags=start=0
#导航
header={User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/102.0.5005.124Safari/537.36Edg/102.0.1245.44}
#目的地
response=requests.get(url=url,headers=header)
#获取网页源代码
baoxian=response.text
#转变数据,将数据进行分层
data1=json.loads(baoxian)
#电影的数量
num=len(data1[data])
#设置表头以及规格
tou=[directors,rate,title
您可能关注的文档
- 网络空间安全概论 实验7 网络爬虫.docx
- 网络空间安全概论 实验7网络爬虫 Scrapy 框架爬取历史天气信息.pdf
- 网络空间安全概论 实验7网络爬虫 scrapy爬虫+文本分类 .docx
- 网络空间安全概论 实验7网络爬虫 贝壳租房爬虫及可视化.docx
- 网络空间安全概论 实验7网络爬虫 多线程CSDN 博客爬虫.pdf
- 网络空间安全概论 实验7网络爬虫 基于python爬取携程景点评论信息.docx
- 网络空间安全概论 实验7网络爬虫 基于豆瓣长影评的内容推荐.docx
- 网络空间安全概论 实验7网络爬虫 基于分布式爬虫 爬取 B.pdf
- 机关事业单位编外人员聘用合同3篇.docx
- 推广体育运动在高校校园-体育协会主席.pptx
最近下载
- 大洋电机:首次公开发行股票招股说明书.docx
- 《13 渍酸菜》(教案)-2023-2024学年四年级上册综合实践活动吉美版.docx
- 2022年6月25日安徽省事业单位统考《职业能力倾向测验》试题.doc VIP
- 开发药品第三终端的实战技巧(1).ppt
- 1.社区卫生服务中心三年发展规划(2023-2026).pdf
- 2024-2025学年广东省惠州市高一上期末数学试卷附答案解析.pdf
- 2022年6月25日安徽省事业单位统考《职业能力倾向测验》试题.pdf VIP
- 睡眠障碍综合治疗指南.pptx
- 3DM2283_使用说明书手册.pdf VIP
- 《拥抱冬日暖阳,携手共育花开》家长会PPT课件.pptx
文档评论(0)