网站大量收购闲置独家精品文档,联系QQ:2885784924

网络空间安全概论 实验7网络爬虫 基于豆瓣长影评的内容推荐.docx

网络空间安全概论 实验7网络爬虫 基于豆瓣长影评的内容推荐.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE2

中国矿业大学计算机学院

2018级本科生课程报告

课程名称信息内容安全

报告题目基于豆瓣长影评的内容推荐

报告时间2021.7.6

姓名周宗文

学号

任课教师曹天杰

2020-2021(二)《信息内容安全》课程报告评分表

序号

毕业要求

课程教学目标

考查方式与考查点

占比

得分

1

2.3

目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。

通过课堂讲授和课堂研讨掌握信息内容安全概念和理论知识。

40%

3.2

目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。

2

4.3

目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。

课程报告;实现有关信息内容安全的一个软件系统。分析和对比各项技术,选择相应的技术进行算法设计并在实验环境中进行仿真实验和性能评价,得到有效结论。

60%

总分

100%

评阅人:

2021年7月10日

目录

TOC\o1-3\h\z\u报告摘要 4

报告正文 5

1.程序流程 5

2.爬虫部分 6

2.1分析和爬取豆瓣电影长评页面 6

2.2爬取豆瓣详细评论 7

2.3应对反爬虫措施 8

2.4爬虫部分代码 8

3.推荐部分 10

3.1.文章结构化 10

3.2计算相似度矩阵 12

3.3用户矩阵 12

3.4计算推荐度 13

4.实现效果 13

报告摘要

关键词:豆瓣长影评;爬虫;影评推荐;基于内容的推荐;

根据在课堂上所学的内容,观察豆瓣长影评论页面的特征,编写了一个爬虫实现可以自动爬取豆瓣某一电影下的所有长影评,实现对这些评论的分析,根据TD-IDF算法提取关键词作为特征向量,计算各文章的相似度,最终实现对用户推荐用户没有看过的,推荐度高的文章。

报告正文

程序流程

根据课堂上所学的知识,以及我的理解,我设计的程序流程是这样的

图1程序流程图

以上就是我设计的程序流程。接下来就解析各部分的实现过程,这里简化了程序,这个程序只爬取5篇评论,提取前10个关键词进行相似度矩阵的计算,然后随机生成5个用户的用户矩阵进行推荐度计算,然后根据计算出来的推荐值的大小,给用户进行推荐。

2.爬虫部分

2.1分析和爬取豆瓣电影长评页面

首先构造url,观察豆瓣的长影评基本都是/subject/+电影id+/reviews?start=,start值为评论页数,这种格式,构造url把电影页面的html文件爬取下来,分析我们要爬取的内容所在的元素。

图2豆瓣电影页面

例如这个页面,它是不显示这篇文章的详细内容的,只有一个展开,我们爬下它的html页面进行分析

图3需要爬取的标签

对于在这个页面的评论,我只爬取每个评论下的

ahref=/people/204500361/class=name夏风已至/a

h2ahref=/review后半段高潮迭起/a/h2

spanclass=allstar40main-title-ratingtitle=推荐/span

这几个标签,代表评价的用户名,文章具体链接,以及对这个电影的评价,这里评价会在之后作为文章的特征向量,文章具体链接用于再次构造请求爬取具体整篇文章。

这里有一个特殊的地方,就是豆瓣长评可能会有无评价等级的评论,就是没有spanclass=allstar40main-title-ratingtitle=推荐/span这项标签,会对我们的爬虫,对应每个评论的信息有影响,通过分析,这种评论一般会带有

spancontent=2021-06-14class=main-meta这样的标签,通过检测这个标签,就可以知道有那个评论说没有给出评价等级的。

爬取效果如下

图4爬取电影评论页面效果

2.2爬取豆瓣详细评论

根据爬取的文章id构造/review/文章id,进行请求,

根据爬取下来的html进行分析(图5),我们需要

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档