- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数数据据分分析析师师必必备备的的基基本本统统计计学学知知识识
数据分析师,⽆疑是数据时代最耀眼的职业之⼀,统计学,⼜是数据分析师必备的基础知识。
知识汇总:
1.集中趋势(CentralTendency)
2.变异性(Variability)
3.归⼀化(Standardizing)
4.正态分布(NormalDistributions)
5.抽样分布(SamplingDistributions)
6.估计(Estimation)
7.假设检验(Hypothesistesting)
8.T检验(T-test)
01集中趋势(CentralTendency)
1.众数
出现频率最⾼的数;
2.中位数
把样本值排序,分布在最中间的值;
样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
3.平均数
所有数的总和除以样本数量;
⼩结:
现在⼤家接触最多的概念应该是平均数,但有时候,平均数会因为某些极值(Outlier)的出现收到很⼤影响;
举个⼩例⼦,你们班有20⼈,⼤家收⼊差不多,19⼈都是5000左右,但是有1个同学创业成功了,年⼊1个亿,这时候统计你们班同学收⼊
的“平均数”就是500万了,这也很好的解释了,每年各地的平均收⼊数据出炉,⼩伙伴们直呼给祖国拖后腿了,那是因为⼤家收⼊被平均了,此
时,“中位数”更能合理的反映真实的情况;
02变异性(Variability)
1.四分位数
上⾯说到了“中位数”,把样本分成了2部分,再找个这2部分各⾃的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的
值记为Q2,3/4处的值记为Q3
2.四分位距IQR=Q3-Q1
箱线图
3.异常值(Outlier):⼩于Q1-1.5(IQR)或者⼤于Q3+1.5(IQR);对于异常值,我们在处理时需要剔除;
4.⽅差(Variance)
⽅差计算公式
5.平⽅偏差(StandardDeviation)⽅差的算术平⽅根
6.贝塞尔矫正:修正样本⽅差
问:为什么要⽤贝塞尔矫正?
实际在计算⽅差时,分母要⽤n-1,⽽不是样本数量n,原因如下
贝塞尔矫正
03归⼀化(Standardizing)
1.标准分数(Z-score)
⼀个给定分数距离平均数多少个标准差?
标准分数是⼀种可以看出某分数在分布中相对位置的⽅法。
标准分数能够真实的反映⼀个分数距离平均数的相对标准距离。
归⼀化处理
04正态分布(NormalDistributions)
1.定义:
随机变量X服从⼀个数学期望为μ,⽅差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)
随机取⼀个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;
正态分布
05抽样分布(SamplingDistributions)
1.中⼼极限定理(CentralLimitTheorem)
设从均值为μ,⽅差为σ⊃2;的任意⼀个总体中抽取样本量为n的样本,当n充分⼤时,样本均值的抽样分布近似服从均值为μ、⽅差为σ⊃2;/n的
正态分布
2.抽样分布(SamplingDistributions)
设总体共有N个元素,从中随机抽取⼀个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共
有N·n个可能的样本。每⼀个样本都可以计算出⼀个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。
但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是⼀种理论分布。数理统计学的相关定理已经证明:在重置抽样时,
样本均值的⽅差为总体⽅差的1/n
例⼦:
48盆MM⾖,计算出每盆有⼏个蓝⾊的M
文档评论(0)