商务数据分析 网店数据分析及应用 如何七周成为数据分析师03:手把手教你Excel实战.doc

商务数据分析 网店数据分析及应用 如何七周成为数据分析师03:手把手教你Excel实战.doc

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何七周成为数据分析师03:手把手教你Excel实战 在??《如何七周成为数据分析师01:常见的Excel函数全部涵盖在这里了》?和《如何七周成为数据分析师02:Excel技巧大揭秘》?后,今天这篇文章讲解实战,如何运用上两篇文章的知识进行分析。内容是新手向的基础教程。 为了更好的了解数据分析师这个岗位,我用爬虫爬取了招聘网站上约5000条的数据分析师职位数据。拿数据分析师进行数据分析。 数据真实来源于网络,属于网站方,请勿用于商业用途。 操作版本:Excel 2016 Mac版。文件大小约2M。 演示过程分为五个步骤:明确目的,观察数据,清洗数据,分析过程,得出结论。 这也是通常数据分析的简化流程。 明确目的 数据分析的大忌是不知道分析方向和目的,拿着一堆数据不知所措。一切数据分析都是以业务为核心目的,而不是以数据为目的。 数据用来解决什么问题? 是进行汇总统计制作成报表? 是进行数据可视化,作为一张信息图? 是验证某一类业务假设? 是希望提高某一个指标的KPI? 永远不要妄图在一堆数据中找出自己的结论,太难。目标在前,数据在后。哪怕给自己设立一个很简单的目标,例如计算业务的平均值,也比没有方向好。因为有了平均值可以想数字比预期是高了还是低了,原因在哪里,数据靠谱吗?为了找出原因还需要哪些数据。 既然有五千多条数据分析师的岗位数据。不妨在看数据前想一下自己会怎么运用数据。 数据分析师是一个什么样的岗位? 它的工资和薪酬是多少? 它有什么特点,需要掌握哪些能力? 哪类公司更会招聘数据分析师? 等等。 有了目标和方向后,后续则是将目标拆解为实际过程。 观察数据 拿出数据别急切计算,先观察数据。 字段名称都是英文,我是通过Json获取的数据,所以整体数据都较为规整。绝大部分数据源的字段名都是英文。因为比起拼音和汉字,它更适合编程环境下。 先看一下columns的含义: city:城市 companyFullName:公司全名 companyId:公司ID companyLabelList:公司介绍标签 companyShortName:公司简称 companySize:公司大小 businessZones:公司所在商区 firstType:职位所属一级类目 secondType:职业所属二级类目 education:教育要求 industryField:公司所属领域 positionId:职位ID positionAdvantage:职位福利 positionName:职位名称 positionLables:职位标签 salary:薪水 workYear:工作年限要求 数据基本涵盖了职位分析的所需。职位中的职位描述没有抓下来,一来纯文本不适合这次初级分析,二来文本需要分词以及文本挖掘,后续有机会再讲。 首先看一下哪些字段数据可以去除。companyId和positionId是数据的唯一标示,类似该职位的身份证号,这次分析用不到关联vlookup,我们先隐藏。companyFullName和companyShortName则重复了,只需要留一个公司名称,companyFullName依旧隐藏。 尽量不删除数据,而是隐藏,保证原始数据的完整,谁知道以后会不会用到呢? 接下来进行数据清洗和转换。因为只是Excel级别的数据分析,不会有哑变量离散化标准化的操作。我简单归纳一下。 数据有无缺失值 数据的缺失值很大程度上影响分析结果。引起缺失的原因很多,例如技术原因,爬虫没有完全抓去,例如本身的缺失,该岗位的HR没有填写。 如果某一字段缺失数据较多(超过50%),分析过程中要考虑是否删除该字段,因为缺失过多就没有业务意义了。 Excel中可以通过选取该列,在屏幕的右下角查看计数,以此判别有无缺失。 companyLabelList、businessZones、positionLables都有缺失,但不多。不影响实际分析。 数据是否一致化 一致化指的是数据是否有统一的标准或命名。例如上海市数据分析有限公司和上海数据分析有限公司,差别就在一个市字,主观上肯定会认为是同一家公司,但是对机器和程序依旧会把它们认成两家。会影响计数、数据透视的结果。 我们看一下表格中的positionName 各类职位千奇百怪啊,什么品牌保护分析师实习生、足球分析师、商业数据分析、大数据业务分析师、数据合同管理助理。并不是纯粹的数据分析岗位。 为什么呢?这是招聘网站的原因,有些职位明确为数据分析师,有些职位要求具备数据分析能力,但是又干其他活。招聘网站为了照顾这种需求,采用关联法,只要和数据分析相关职位,都会在数据分析师的有哪些信誉好的足球投注网站结果中出现。我的爬虫没有过滤其他数据,这就需要手动清洗。 这会不会影响我们的分析?当然会。像大数据工程师是数据的另外发展方向,但不能归纳到数据分析

文档评论(0)

WanDocx + 关注
实名认证
内容提供者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档