中南民族大学python爬虫大作业.doc

中南民族大学python爬虫大作业.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第PAGE1页

年级

专业

?

班级

?

组号

实验室

日期

??

实验

名称

??对前程无忧网站JAVA相关岗位信息的爬取

分项内容与难度

分项内容

难度

对前程无忧网站进行数据分析,分析关键想要爬取数据

较难

数据爬取

一般

存储获得的岗位信息

一般

进行岗位数据进行饼图、柱状图等可视化

较难

小组成员

序号

学号

姓名

组内分工

自我评分

教师评分

1

?

2

?

?

?

教师签名:

年月日

对前程无忧网站JAVA相关岗位信息爬取

一项目简介

前程无忧作为咱们的老牌招聘网站,最大的优势当然是职位资源很全面,基本上结合了国内众多大企业的招聘资源,比如中国移动、浦发银行、国药集团、海尔集团、小米集团等等,耳熟能详有木有,而且职位也很丰富,几乎所有的专业和职业方向都能在上面找到相应的职位,为了解目前社会对于java相关岗位的需求情况,利用python爬取了前程无忧岗位招聘信息。并通过可视化工具分析比较了不同行业的岗位用人需求情况;以及不同行业、岗位的知识、技能要求等。

二需求分析

随着科技的不断进步与发展,数据呈现爆发式的增长,各行各业对于数据的依赖越来越强,与数据打交道在所难免,而社会对于JAVA方面的人才需求也在不断增大。因此求职者需要了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?

三概要设计

创建表格存储获取的岗位信息,伪装模拟浏览器登录,获取数据:爬虫程序通过我们提供的网址向服务器发出请求,并返回数据,用findall和正则表达式找到需要的数据范围,用Json.load解析有效的JSON字符串并将其转换为Python字典,导入parsel库,创建一个selector对象,向其传入text参数,内容就是上面的html字符串。有了这个selector对象之后,我们可以使用css进行内容提取。之后创建数据表存储内容,再进行饼图,柱状图等对员工福利词云图、学历占比分析、工作城市分析、经验要求分析、公司占比分析的可视化操作

四详细设计

数据爬取:

importjson

importpprint

importparsel

importrequests

importpandasaspd

importre

importcsv

importtime

#mode模式保存方式,a追加写入不会覆盖

defget_job_content(html_url):

html_str=

!doctypehtml

htmllang=en

head

metacharset=UTF-8

titleDocument/title

/head

body

{article}

/body

/html

url=/xian/143121926.html

headers={

Cookie:_uab_collina=166989768881975476318128;guid=be8112ba31fd942fc7791a3bc94ef849;ps=needv%3D0;sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22218945607%22%2C%22first_id%22%3A%22184ad8132344cf-0b33e6ff3a392b8-7d5d5471-1327104-184ad8132357df%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%7D%2C%22identities%22%3A%22eyIkaWRlbnRpdHlfY29va2llX2lkIjoiMTg0YWQ4MTMyMzQ0Y2YtMGIzM2U2ZmYzYTM5MmI4LTdkNWQ1NDcxLTEzMjcxMDQtMTg0YWQ4

文档评论(0)

173****2170 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档