- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
由于近些年互联网和计算机的发展,数据对于各各行业来说是一块新的“金矿”,再加上近两年人工智能的兴起,数据的重要性更是越加的凸显,因此一些新的职业比如数据挖掘工程师,算法工程师等成为一个新兴的行业。那么经过了这几年的发展,这个行业在前景是怎样的呢?既然是数据行业,我们就用数据来说话吧。
首先我们来找一些数据的来源,对于我们普通人来说,最好的数据源自然是数据开源网站kaggle (/),那么我们就找了一个比较符合我们目标的数据集(/kaggle/kaggle-survey-2017)。这个数据集包含了很多信息,这里仅对其中的薪资分布做重点分析,其他更有趣的信息,各位同学可以自行参考本文进一步挖掘。
一、使用的工具及数据的处理
数据可以从上述提供的链接下载,本文主要通过python来进行数据的处理,主要的工具使用了jupyter,数据包包含python中的科学计算工具:numpy, pandas, matplotlib, seaborn, plotly等。
首先我们来分析一下数据,由于数据不是很大,所以可以用最基本的Excel打开,其中最主要的文件是‘multipleChoiceResponses.csv’和‘conversionRates.csv’两个文件,前者是主要的数据文件,后者是当时的一个货币汇率表,由于我们需要进行薪资对比,所以需要将各个国家的货币统一转换为美元(USD)。
那么接下来首先将数据解压后上传到jupyter中,然后引入必要的包并导入数据:
由于数据中有一些信息我们暂时用不到,同时还有汇率数据需要整合,所以先做一下数据的筛选和拼接:
这其中需要性别,国籍,年龄,全职/兼职,职业,学位,年薪等。然后我们主要对全职的年薪感兴趣,那么我们筛选这一部分数据出来,同时去掉一些信息空值的数据。
下一步我们观察到数据中记录的薪资是以字符串形式记录的,那么我接下来将字符串转换为数字并按照汇率数据统一转换为美元。
这里主要的数据前期处理工作已经可以结束了,但是在画图的时候发现中国有很多个名称,我们需要将相关的数据合并,尤其需要注意的是,台湾也应该算在中国范围内(特殊强调)。
接下来我们来看一下处理好的数据:
由于数据中有一些信息我们暂时用不到,同时还有汇率数据需要整合,所以先做一下数据的筛选和拼接:
这其中需要性别,国籍,年龄,全职/兼职,职业,学位,年薪等。然后我们主要对全职的年薪感兴趣,那么我们筛选这一部分数据出来,同时去掉一些信息空值的数据。
下一步我们观察到数据中记录的薪资是以字符串形式记录的,那么我接下来将字符串转换为数字并按照汇率数据统一转换为美元。
这里主要的数据前期处理工作已经可以结束了,但是在画图的时候发现中国有很多个名称,我们需要将相关的数据合并,尤其需要注意的是,台湾也应该算在中国范围内(特殊强调)。
接下来我们来看一下处理好的数据:
data_selected.head()
可以看到数据已经规整的处理好了,那么数据的整体信息是什么样的呢?
数据一共筛选出了3774条,一共有50个国家,其中人数最多的国家仍然是美国,年龄分布从0-100(这个年龄没有做严格的筛选,肯定是有问题的)。
二、画图与数据分析
首先导入一些需要要用的包:
A . 女性能占半边天?
先对性别的分布做一个统计:
可以明显的看到对于数据行列来说,男性仍然占据着一个比较主导的地位,当然还有一些其他的性别,除了人为的填写错误因素,那么我们真的需要承认现在的世界真是一个多元化的世界。
B . 一骑绝尘的美利坚
接下来统计一下各个国家的人员数量,由于数量过多,仅对前15名进行画图:
经过这次统计,我们发现人数最多的的国家是美国,其次是印度和英国。不过这个结论还是比较符合我们认知的,不过奇怪的是英国和法国竟然人数在中国之上,但是也从另一个角度反映出,我们国家的数据行业的发展还处于未成熟的阶段,国内的人才缺口应该还是很大的。
为了更加直观一些,我们用地图来呈现一下:
C . 中坚力量还是年轻人
那么各个年龄段是如何分布的呢:
可以发现这个行业仍然是年轻人的主战场,主要分布在30-40岁的范围,不过这也不奇怪,因为数据分析的行业是一个新兴行业,年轻人更容易进入行业中,相信随着行业的发展,年龄分布的中心有可能会向着40岁左右偏移,那时应该是更加稳定的行业年龄结构。
D . 薪资起点高,差异化明显
接下来我们来分析我们这次重头戏,首先来对所有人员的薪资做一个整体的分布图:
可以看到总体的薪资还是十分可观,最高可以到$30000,不过大部分仍然是分布在低位的,这个差距从图上看还是很大的,这不排除和不同国家的基本情况有关。一般来说发达国家的薪资水平要高于发展中国家,那么是那些国家的水平高,那些国家的水平低呢?
从图中可以用看到美国是人数最多也是薪资最高的国家,
文档评论(0)