描述性数据分析.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

描述性数据分析数据的描述性分析即是从数据出发概括数据特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也是对数据进行进一步分析的基础。§1单样本数据1、一组单样本数据,样本数据个数称为样本容量,1)样本平均数2)样本方差3)样本标准差4)偏度5)峰度2、五数概括1)中位数2)最小数3)最大数4)极差5)分位数6)上四分位数7)下四分位数8)极差9)上下截断点无数概括:最小数、下四分位数、中位数、上四分位数、最大数和在一起称为无数概括。例:已知数据:9.898.006.406.175.397.279.0810.4011.208.338.756.4511.9010.309.589.247.756.208.95计算:平均数,方差,中位数,四分位数;并判断是否有异常值。解:3、直方图:直方图可以直观的观察数据的分布情况。所谓直方图就是将数据按它们的取值范围划分为若干子区间,以每一个子区间为底,在它的上方作一个矩形,矩形的面积与位于该子区间内的数据个数成比例。这些矩形的全体构成了数据直方图。方法:将数据范围分成若干自取件,一般是等间距的。考虑落入每个区间的频率。绘制直方图的关键之处在于子区间的划分,我们将分别讨论两种情况:样本数据本身包含了子区间的划分或至少提供了划分的信息,另一种是样本数据只提供单纯的n个数字。1、样本数据组提供了子区间的划分例1某市居民的月收入情况2000元以下2000元~3000元3000元~4000元4000元~5000元5000元~6000元6000元~7000元7000元以上1%5.6%15.4%22.8%22.8%11.2%21.2%宽度为组距,高度为落入该区间的频率2、样本数据组只提供了n个数据此时对数据绘制直方图需要制图者自己选择与确定子区间的个数及如何划分,这两个因素将直接关系到直方图的形状。这是仍旧需要对数据进行子区间,划分大部分采用均分的方式,区间的个数通常在6~20之间(也有8~15个),具体要分成多少个,要有实际问题确定。假设样本数据组要划分成k个子区间,则具体划分数据的原则是,设n个数据的最小值为a,最大值为b,则把b-a做为区间的长度。这种分法是比较常见的。三、茎叶图茎叶图是探索性数据分析时对数据的初步形象描绘,有点像直方图,但主要的差异在于茎叶图是用数据代替直方图中的矩形。这样既有了直观的图示,又对具体数据有大致了解。可以更细致的看出数据的分布结构。茎叶图制作的第一步是将每一个数据分解为三个部分:茎、叶以及可忽略部分。一个数,从哪一位开始可以归属于可忽略部分,需要看研究的实际情况而定。某班31名学生考试成绩如下:2545505455616468727575787981838484848586868789898990919192100茎叶图与直方图一样,都可以直观的看出数据分布的情况,但茎叶图用了所有数据,没有丢失信息。从图上大致可以看出数据是否对称,分散性如何,是否有异常值,数据中间是否有间隙等。利用茎叶图也很自然的给数据进行了排序。数据分析中,常常要比较两组可比数据的分布趋向,背靠背茎叶图为此提供了方便。假如从某地区随机抽样男女居民各20名,对他们的月收入进行调查,得数据如下(单位为元):男803,659,571,778,492,295,345673,388,580,708,433,301,193435,560,767,678,288,477女680,792,583,434,425,186,288379,444,556,471,671,536,333422,236,195,345,389,400这两组数据的茎叶图可以忽略个位数而得,被忽略的个位

文档评论(0)

159****5148 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档