- 1、本文档共78页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 多元数据分析 1、主成分分析的概念 2、主成分分析方法 主成分分析的概念 多变量大样本为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。 主成分分析的概念 如果分别分析每个指标,分析又可能是孤立的,而不是综合的。 盲目减少指标会损失很多信息,容易产生错误的结论。 因此需要找到一个合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收集的资料作全面的分析。 主成分分析的概念 由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析就是这样一种降维的方法。 主成分分析就是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法 主成分分析的概念 综合指标之间彼此不相关,即各指标代表的信息不重叠。综合指标称为因子或主成分,一般有两种方法: 特征值1 累计贡献率0.8 例:成绩数据 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。 从本例可能提出的问题 能不能将6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。 本例中的数据点是六维的;即每个观测点是6维空间中的一个点。我们希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵 这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维降到了一维。 当坐标轴和椭圆的长短轴平行,代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有道理。 对于多维变量的情况和二维类似,也有高维的椭球。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 注意:和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。 正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢? 那就是这些被选的主成分所代表主轴的长度之和占了主轴长度总和的大部分。 所选的主轴总长度占所有主轴长度之和的大约85%即可。 A typical data analysis situation 12 Jams samples were made from berries plucked in various cultivars and seasonal times. Several parameters (sensory measurements) were measured on each sample. Data set Raspberry Jams Sample comparison according to 1 variable: Redness Sample comparison according to 2 variables: Redness and colour Sample comparison according to 3 variables: Redness, colour and R. Smell Sample comparison according to all 12 variables: multivariate model (PCA) Sample comparison according to all 12 variables: multivariate model (PCA) Sample comparison according to all 12 variables: multivariate model (PCA) Principal Component Analysis (PCA) Principles behind PCA The principles of Principal Component Analysis (PCA) The
您可能关注的文档
最近下载
- 建筑垃圾清运投标方案(技术方案).docx
- python351入门指南中文版打印版.docx VIP
- PEP五年级英语下册Unit 4 Part A .pptx VIP
- 神经病学(人卫九版)3-颅内压增高.pptx
- 2023—2024学年山东省济南市市中区八年级上学期期中考试英语试卷(含听力).doc VIP
- 颅脑损伤-参考PPT.ppt
- 天津市河东区第一0二中学2022-2023学年七年级上学期数学期中测试卷【含答案】.pdf VIP
- 四年级语文走月亮课件.pptx VIP
- 浙江省宁波市2023-2024学年高二上学期期中地理试题含解析.pdf VIP
- 人教版五年级上册科学《根和茎》课件图文.ppt
文档评论(0)