基于大数据的招聘信息爬虫技术研究与实现.docx

下载文档

0
0
约2.49千字
约 7页
2024-09-23 发布于湖北
举报
版权申诉
保障服务

基于大数据的招聘信息爬虫技术研究与实现.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于大数据的招聘信息爬虫技术研究与实现

张婷姚仿秋

摘要：網络招聘中信息量巨大，数据冗余较多，导致很多求职者在浏览招聘信息时往往不知道如何选择。网络爬虫，一种基于python语言的专有性有哪些信誉好的足球投注网站工具，能够将网络上的信息下载保存到本地，还能将网页爬取到的大量信息用于数据分析和大数据研究。

本文实现了Scrapy爬虫对招聘网站的数据爬取，通过搭建Flask框架对采集的数据进行可视化分析。其分析结果可以帮助求职者在浏览招聘信息时更好地评估工资水平，有效地判断招聘信息是否合理，进而有效提高求职者在寻求招聘岗位时的效率。

关键词：网络爬虫;Scrapy框架;网络招聘信息

随着互联网的高速发展和大数据时代的来临，网络招聘已经成为企业之间人才竞争的主要手段。相对于传统的线下招聘而言，网络招聘成本低、覆盖面广、易于发布信息、招聘信息种类众多[1]，通过网络平台求职者还可以更快地与招聘者进行沟通联系，节约了彼此之间的时间成本。同时由于“互联网+”经济的蓬勃发展，使得网络招聘成为我国招聘市场的主流趋势[2]。招聘信息本身存在不同时段的时效性，不同政策的工资变化不同，冗余度大，成效低，让求职者很难匹配到自己心仪的工作。

本文使用网络爬虫技术爬取三个招聘网站的招聘信息，将爬取下来的招聘数据进行智能可视化分析，发掘数据中隐藏的价值，摸索网站招聘规律。通过得出结论，可以更有效地帮助求职者找到适合自己的工作。

一、网络爬虫技术概述

随着大数据时代的来临，互联网上的数据容量爆炸性地增长，高性能的网络有哪些信誉好的足球投注网站引擎以及定向的信息获取的需求，使得网络爬虫技术逐渐成为人们研究的对象。网络爬虫就是通过模拟浏览器发出网络请求，获取网站服务器返回的响应，并按照一定需求爬取数据的脚本程序。网络爬虫可以分为两类：通用爬虫和聚焦爬虫。

1.1通用爬虫概述

通过用户初始规定的一个待爬取URL地址列表，爬虫从中按顺序爬取URL地址，通过DNS解析获得到主机网页的ip地址，然后交给下载器去下载网页，将采集成功的网页保存到本地磁盘中，并且将已爬取的URL地址做出标志防止二次爬取，保存到磁盘中的网页又存在许多链接信息，再从中抓取URL地址放入待爬取列表中去进行分析。如果发现有未下的url就放在待抓取url队列的列尾，从而等待调度下载。如此循环下载，待抓取队列为空时，爬虫就完成了对网页的下载。

1.2?聚焦爬虫概述

通用网络爬虫所采集的网页数据和正常用户在浏览器中访问的数据是一样的，而在大多数情况在，这些网页数据中有90%是对用户来说是不需要的。聚焦爬虫则可以根据用户的需求而去爬取特定的一些内容，是一种面向主题、面向需求的爬虫。本次论文所使用的爬虫就是聚焦爬虫。

二、搭建Scrapy框架

2.1Scrapy框架

Scrapy框架是Python语言开发的，基于Twisted异步网络框架的开源爬虫框架。用户可以根据需求在Scrapy框架各个模块中编写好要爬虫的规则、存储的结构，就能快速、灵活地爬取web网站的数据。其主要的框架组件有以下几个：

（1）ScrapyEngine（引擎）组件：负责各个组件之间的连接、信号传递

和数据通信，是整个框架组件的核心。

（2）Spiders（爬虫）组件：用来定制爬取web网页的规则，发出Request

请求到Schedule（调度器），同时也接收Downloader（下载器）发送过来的Response响应，并从中提取到item字段所需要的数据由引擎发送到Item管道，如果有需要根据的url链接，就继续提交给调度器。

（3）Schedule（调度器）：接收到爬虫组件发送过来的Request请求，将请求进行入队列处理，进而交给Downloader下载。

Scrapy架构图如下所示，其中绿线表示数据流向。

图2为Scrapy框架的工作流程图。

三、基于网络爬虫的数据采集实验

本研究的实验基于Python软件进行，对北京计算机岗位招聘信息进行爬虫实验，其中爬虫程序运行过程如图3。

运行完毕之后，打开navicat可视化工具查看下载的招聘数据内容，如图4。

三个爬虫项目最大的区别在于各自网站数据传输的URL，这是各不相同的，通过抓包分析能获取到网站数据传输的Json地址，将其包装到爬虫模块中去发送请求。前程无忧和拉钩网爬虫项目的反爬虫设置、数据库连接、数据清洗都与智联招聘网爬虫项目一致。执行各自的爬虫名即可完成对网站数据的抓取。

四、结论

本文实现了使用Python的Scrapy爬虫框架对三个招聘网站的招聘信息采集，本文从求职者的角度去进行数据分析，利用Flask框架简单，灵活的特点，完成后台服务器的搭建和使用SQLAlchemy模块对采集的数据进行操作，实现可对不同岗位进行有哪些信誉好的足球投注网站分析的网页。求职者可以通过图形的分析结果进而判断招聘信息是否合