- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE2
中国矿业大学计算机学院
2018级本科生课程报告
课程名称信息内容安全
报告题目租房信息爬虫及数据分析
报告时间2021.7.6
姓名李辰
学号
任课教师曹天杰
2020-2021(二)《信息内容安全》课程报告评分表
序号
毕业要求
课程教学目标
考查方式与考查点
占比
得分
1
2.3
目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。
通过课堂讲授和课堂研讨掌握信息内容安全概念和理论知识。
40%
3.2
目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。
2
4.3
目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。
课程报告;实现有关信息内容安全的一个软件系统。分析和对比各项技术,选择相应的技术进行算法设计并在实验环境中进行仿真实验和性能评价,得到有效结论。
60%
总分
100%
评阅人:
2021年7月10日
目录
TOC\o1-3\h\u21828报告摘要 4
19060报告正文 4
29376一、对58同城租房信息爬取 4
177191、网页内容定位爬取 4
749(1)租房价格 4
9449(2)租房标题 4
32335(3)其他租房信息 5
5092、反爬虫机制绕过 6
7556(1)访问时延设置 6
5293(2)伪造UA头 6
22952(3)绕过SSL认证,设置verify=False 6
13382(4)当过多,过快的对58同城网站进行爬取,导致IP封禁 6
278853、文件导出和去重 7
23012(1)数据处理过程 7
15596(2)数据文件展示 8
25594、IP代理池的IP过滤 8
9332(1)从网上爬取IP 8
25466(2)对IP进行过滤 9
2305、租房网页链接有效性判断 10
18453二、对导出数据进行分析 11
182731、导入数据格式处理 11
29031(1)去除size中的㎡ 11
18498(2)按区域处理数据 11
78982、数据可视化 11
15308(1)直方图显示户型 12
11314(2)折线图显示各区域平均祖金 12
18681(3)柱状图显示各区域租房数量 12
7595(4)图表展示 13
报告摘要
摘要:在数据爆炸的时代,繁杂冗余的数据让人眼花缭乱。我们需要对数据进行收集和分析,让我们对数据有更直观的认识。本报告主要对58同城的租房信息进行爬取和分析,最终以图表的方式显示出来。
关键词:爬虫;分析
报告正文
对58同城租房信息爬取
网页内容定位爬取
租房价格
分析图1.1.1中的价格位置,可以直接复制其中的CSS路径。(这里是以火狐为例,如果是谷歌的话复制selector路径)
图1.1.1
通过空列表暂时存储爬取的价格
图1.1.2
租房标题
分析图1.2.1中的标题位置,通过节点的迭代向下寻找到标题所在的节点。
图1.2.1
如图1.2.2其中使用正则表达式去除不需要的噪音信息。
图1.2.2
其他租房信息
如图1.3.1,其他租房信息按照标题的方式进行爬取和去除噪音信息。
图1.3.2
反爬虫机制绕过
访问时延设置
这里的time是用来设置休眠时间,random使用每次访问时延不同,防止被识别出。
time.sleep(random.randint(0,3))
伪造UA头
UA头使用的是fake_useragent库使每次访问爬取的时候都采用的时不同的UA头。
headers?=?{User-Agent:str(UserAgent().random)}
绕过SSL认证,设置verify=False
如图2.3.1所示,若未设置时,会出现人机验证,阻止进一步爬取。
图2.3.1
设置后如图2.3.2所示
图2.3.2
当过多,过快的对58同城网站进行爬取,导致IP封禁
如图2.4.1所示,被检测到
您可能关注的文档
最近下载
- 山香教育教育教学理论提纲归纳讲义 .pdf VIP
- 2025蛇年大吉企业年会快闪PPT.pptx VIP
- 基于大数据的养护决策支持.pptx
- GA 1801.2-2022 国家战略储备库反恐怖防范要求 第2部分:通用仓库.docx
- T_AOPA 0005-2023 轻小型末端物流无人机接驳系统技术规范.docx VIP
- 2024年中考道德与法治一轮复习:生命安全与健康教育 专项练习试卷(含答案).pdf VIP
- 2024年中国第三方支付行业研究报告.pdf
- GB50454-2020航空发动机试车台设计标准.pdf
- 物业公司安全生产管理制度(通用6篇).pdf
- 中医临床路径19-儿科.pdf VIP
文档评论(0)