- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何七周成为数据分析师03:手把手教你Excel实战
在??《如何七周成为数据分析师01:常见的Excel函数全部涵盖在这里了》?和《如何七周成为数据分析师02:Excel技巧大揭秘》?后,今天这篇文章讲解实战,如何运用上两篇文章的知识进行分析。内容是新手向的基础教程。
为了更好的了解数据分析师这个岗位,我用爬虫爬取了招聘网站上约5000条的数据分析师职位数据。拿数据分析师进行数据分析。
数据真实来源于网络,属于网站方,请勿用于商业用途。
操作版本:Excel 2016 Mac版。文件大小约2M。
演示过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。
这也是通常数据分析的简化流程。
明确目的
数据分析的大忌是不知道分析方向和目的,拿着一堆数据不知所措。一切数据分析都是以业务为核心目的,而不是以数据为目的。
数据用来解决什么问题?
是进行汇总统计制作成报表?
是进行数据可视化,作为一张信息图?
是验证某一类业务假设?
是希望提高某一个指标的KPI?
永远不要妄图在一堆数据中找出自己的结论,太难。目标在前,数据在后。哪怕给自己设立一个很简单的目标,例如计算业务的平均值,也比没有方向好。因为有了平均值可以想数字比预期是高了还是低了,原因在哪里,数据靠谱吗?为了找出原因还需要哪些数据。
既然有五千多条数据分析师的岗位数据。不妨在看数据前想一下自己会怎么运用数据。
数据分析师是一个什么样的岗位?
它的工资和薪酬是多少?
它有什么特点,需要掌握哪些能力?
哪类公司更会招聘数据分析师?
等等。
有了目标和方向后,后续则是将目标拆解为实际过程。
观察数据
拿出数据别急切计算,先观察数据。
字段名称都是英文,我是通过Json获取的数据,所以整体数据都较为规整。绝大部分数据源的字段名都是英文。因为比起拼音和汉字,它更适合编程环境下。
先看一下columns的含义:
city:城市companyFullName:公司全名companyId:公司IDcompanyLabelList:公司介绍标签companyShortName:公司简称companySize:公司大小businessZones:公司所在商区firstType:职位所属一级类目secondType:职业所属二级类目education:教育要求industryField:公司所属领域positionId:职位IDpositionAdvantage:职位福利positionName:职位名称positionLables:职位标签salary:薪水workYear:工作年限要求
数据基本涵盖了职位分析的所需。职位中的职位描述没有抓下来,一来纯文本不适合这次初级分析,二来文本需要分词以及文本挖掘,后续有机会再讲。
首先看一下哪些字段数据可以去除。companyId和positionId是数据的唯一标示,类似该职位的身份证号,这次分析用不到关联vlookup,我们先隐藏。companyFullName和companyShortName则重复了,只需要留一个公司名称,companyFullName依旧隐藏。
尽量不删除数据,而是隐藏,保证原始数据的完整,谁知道以后会不会用到呢?
接下来进行数据清洗和转换。因为只是Excel级别的数据分析,不会有哑变量离散化标准化的操作。我简单归纳一下。
数据有无缺失值
数据的缺失值很大程度上影响分析结果。引起缺失的原因很多,例如技术原因,爬虫没有完全抓去,例如本身的缺失,该岗位的HR没有填写。
如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。
Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失。
companyLabelList、businessZones、positionLables都有缺失,但不多。不影响实际分析。
数据是否一致化
一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,差别就在一个市字,主观上肯定会认为是同一家公司,但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。
我们看一下表格中的positionName
各类职位千奇百怪啊,什么品牌保护分析师实习生、足球分析师、商业数据分析、大数据业务分析师、数据合同管理助理。并不是纯粹的数据分析岗位。
为什么呢?这是招聘网站的原因,有些职位明确为数据分析师,有些职位要求具备数据分析能力,但是又干其他活。招聘网站为了照顾这种需求,采用关联法,只要和数据分析相关职位,都会在数据分析师的有哪些信誉好的足球投注网站结果中出现。我的爬虫没有过滤其他数据,这就需要手动清洗。
这会不会影响我们的分析?当然会。像大数据工程师是数据的另外发展方向,但不能归纳到数据分析
文档评论(0)