网站大量收购独家精品文档,联系QQ:2885784924

《数据可视化 》 课件 第3章 数据的理解与分析.pdf

《数据可视化 》 课件 第3章 数据的理解与分析.pdf

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第3章数据的理解与分析

本章主要内容

3.1数据基础

3.2数据特征

3.3数据预处理

3.4数据存储

3.5数据分析

3.1数据基础

3.1.1数据属性

•是一个数据字段,数据对象的特征(Characteristics)

或特性(feature).

•数据对象中往往包含一个或多个属性。

别名:

特征

维度

变量

3.1.2属性类型

类别型属性:⽤于区分不同数据对象的名称或符号。

属性类型

有序型属性:按照一定的意义排列顺序。

属性类型

数值型属性:是可度量的量,⽤整数或实数值表示。例如⻓度、重量、体积、温

度等常⻅物理属性。

离散型和连续型

•离散型属性的取值来⾃有限或可数的集合,例如等级,⽂档单

词,邮政编码等。

•连续型属性则对应于实数域,例如⾼度,温度和湿度等。

3.2数据特征

3.2.1基本统计描述

数据的宏观表达。把握数据的全貌,了解数据的分布状况,探索式数据分析的基础。

样本数据的基本统计特征分为三类:

集中趋势度量:表示数据的集中位置,寻找数据中的中⼼值或者代表值,主要有均值、中位数、众数等。

离中趋势度量:表示数据的分散程度,反映了数据远离中⼼值的程度,描述⼀组数据的波动性,主要有

标准差、极差、四分位数、四分位数极差、变异系数等。

数据分布形态:主要有偏态和峰态。

基本统计描述

均值

方差

方差用来衡量所有样本点偏离均值的程度。

标准差

是方差的平方根。

1

̅

中位数

指样本按从小到大排列后处于中间位置上的值。

中位数依赖数据的排序位置确定,而不是使用全部数据求得,

因而会损失部分数据信息,但它较少受到极端异常值影响。

百分位数

是中位数的推广,表明数据集中小于它的数的比例。

第一步:将n个变量值从小到大排列,X(j)表示此数列中第j个数。

第二步:计算指数,设(n+1)P%=j+g,j为整数部分,g为小数

部分。

第三步:1)当g=0时:P百分位数=X(j);

2)当g≠0时:P百分位数=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-

X(j)]

例3.2

一家电器商城12个员工在某天售出的电视机数量按照升序

排列如下:

1,

3,

3,

3,

4,4,5,6,6,8,12,14

有12个数据,求第10百分位数?

在位置(12+1)X10%=1.3位置处,即在第一个数据和第二个数

据之间且离第一个数据30%位置处,因而第10百分数位是1+(3‐

1)×30%=1.6。

四分位数

三个四分位数,,将数据分成均匀的四份,因而和分

别为数据排序后位于25%和75%位置上的值,分别被称为第25百分位数

和第75百分位数。为中位数。

在例3.2中,、分别是多少?

的位置在?

的位置在?

四分位数间距

是测量数据分布宽度的值,定义为第75百分位数与第25百

分位数之间的距离,即和的差距。

反映了中间50%数据的离散程度,不受极端异常值的影响。

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档