多元数据图表示法.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 多元数据图表示法 图形有助于对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可从图形一目了然地看出多元数据之间的关系,当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图。当有三维数据时,虽然可以在三维坐标系里点图,但已很不方便,而当维数大于3时,用通常的方法已不能点图。但在许多实际问题中,多元数据的维数都大于3。自20世纪70年代以来多元数据的图表示法一直是人们所关注的问题,人们想了不少办法,这些方法大体上分为两类:一类是使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系;另一类是在尽可能多地保留原数据信息的原则下进行降维,若能使数据维数降至2或1,则可在平面上点图。后者可用后面介绍的主成分法、因子分析法等去解决。本章仅对前者介绍四种图表示法,更多的这类方法可在有关专著中找到。 设变量数为p,观测次数为n,第次观测值记为次观测数据组成的矩阵为。 例 考察北京、上海、陕西、甘肃四个省市人均生活消费支出情况,选取以下五项指标,具体数据如下表(摘自1996年中国统计年鉴): (单位:元) 肉禽及制品 住 房 医疗保健 交通和通讯 文娱用品及服务 北京 563.51 227.78 147.76 235.99 510.78 天津 678.92 365.07 112.82 301.46 465.88 陕西 237.38 174.48 119.78 141.07 245.57 甘肃 253.41 156.13 102.96 108.13 212.20 此例变量个数,观测次数。 §4.1 轮廓图 作图步骤为: (1)作平面坐标系,横坐标取p个点表示p个变量。 (2)对给定的一次观测值,在p个点上的纵坐标(即高度)和它对应的变量取值成正比。 (3)连接p个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。n次观测值可画出n条折线,构成轮廓图。 下面画出四条折线为北京、上海、陕西、甘肃五项指标的数据即四个省市五项指标的轮廓。 由轮廓图可以看出:北京、上海的居民生活消费较高且相似。陕西、甘肃生活消费较低且相似。 如果考察的样品较多,画折线时图形中可能出现重复点多,不便于区分哪个样品对应哪条折线,这时最好多用几种颜色或长短虚实等标志来画出折线。 肉禽及制品 住房 医疗保健 交通通讯 娱乐教育文化 轮廓图 §4.2 雷达图 作图步骤呈: (1)作一圆,并把圆周分为p等分。 (2)连接圆心和各分点,把这p条半径依次定义为各变量的坐标轴,并标以适当的刻度。 (3)对给定的一次观测值,把它的p个分量值分别点在相应的坐标轴上,然后连接成一个p边形,这个p边形就是p元观测值的图示,n次观测值可画出n个p边形。 将上例数据用雷达图表示如下: 雷达图 这种图形既象雷达荧光屏上看到的图象,也象个蜘蛛网,因此有人称为雷达图,也有人称为蛛网图。利用雷达图有助于观测多元数据的某些特点,便于进行分析,例如从上图不难看出北京、上海各种指标都较高,对应着一个面积较大的五边形。而陕西、甘肃各种指标都较低,其图形面积也较小,利用图形和面积大小可对样品进行初始分类,将北京、上海分为一类,陕西、甘肃分为一类。 当观测次数n较大时,为使图形清晰,每张图可以只画少数几次观测数据,甚至每张图只画一次观测值。为了获得较好的效果,在雷达图中适当分配变量的坐标轴,并选取合适的尺度是十分重要的,比如把要进行对比的指标其坐标轴分别放在左和右或正上方和正下方,以便根据图形偏左、偏右或偏上、偏下进行对比和分析。 值得注意的是,这里坐标轴只有正半轴,因而只能表示非负数据,若有负数据,只能通过合理变换使之非负才行。 §4.3 调和曲线图 调和曲线图是D.F.Andrews1972年提出的三角多项多作图法,所以又称为三角多项式图,其思想是把高维空间中的一个样品点对应于二维平面上的一条曲线。 设p维数据对应的曲线是 上式当t在区间()上变化时,其轨迹是一条曲线。 上例数据北京、上海、陕西、甘肃分别对应的曲线为: 它们的图形如下: 调和曲线图 n次观测对应n条曲线画在同一平面上就是一张调和曲线图。 在多项式的图表示中,当各变量的数值太悬殊时,最好先标准化后再作图。 作调和曲线时一般要借助计算机作图,这种图对聚类分析帮助很大,如果选择聚类统计量为距离的话,同类的曲线非常靠近拧在一起,不同类的曲线拧成不同的束,非常直观。 从数学上看,调和曲线图是一种较好的图示法,因为它具有许多好的性质,例如: (1)保线性关系 设X、Y、Z均为p维向量,a、b为常数。 若 Z=aX+bY 则 特别,若有n个p维样品是它们的均值向量,则 即均值的曲线正好是样品曲线的均值。 (2)保欧氏距离 由于和都是上的平

文档评论(0)

kfuz777 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档