2判别分析.pptVIP

下载本文档

3
0
约7.67千字
约 70页
2017-02-19 发布于上海
举报
版权申诉

2判别分析.ppt

1、本文档共70页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学 ─从数据到结论第十二章判别分析 12.1 判别分析(discriminant analysis) 某些昆虫的性别只有通过解剖才能够判别但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并以此标准来判别其他未知性别的昆虫。这样虽非100%准确的判别至少大部分是对的，而且用不着杀生。此即判别分析判别分析(discriminant analysis) 判别分析和聚类分析有何不同？在聚类分析中，人们一般事先并不知道应该分成几类及哪几类，全根据数据确定。在判别分析中，至少有一个已经明确知道类别的“训练样本”，并利用该样本来建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。判别分析例子数据disc.txt:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标（变量）进行评分。指标有:企业规模（is）、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等. 另外，有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。判别分析例子希望根据这些企业的上述变量的打分及其已知的类别(三个类别之一：group-1代表上升，group-2代表稳定，group-3代表下降)找出一个分类标准，以对尚未被分类的企业进行分类。该数据有90个企业（90个观测值），其中30个属于上升型，30个属于稳定型，30个属于下降型。这个数据就是一个“训练样本”。 Disc.sav数据 1. 根据距离判别的思想 Disc.txt数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据在8维空间有90个点，由于已知所有点的类别，可以求得每个类型的中心。这样只要定义了距离，就可以得到任何给定的点（企业）到这三个中心的三个距离。 1. 根据距离判别的思想最简单的办法就是:某点离哪个中心距离最近，就属于哪一类。一个常用距离是Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function). 这种根据远近判别的思想，原理简单，直观易懂。为判别分析的基础 2. Fisher判别法(先进行投影) Fisher判别法就是一种先投影的方法。考虑只有两个(预测)变量的判别问题。假定只有两类。数据中的每个观测值是二维空间的一个点。见图。这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按原来变量(横坐标和纵坐标)，很难将这两种点分开。 2. Fisher判别法(先进行投影) 于是就寻找一个方向，即图上的虚线方向，沿该方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，判别效果不会比这个好。有了投影之后，再用前面讲到的距离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判别法。 3.逐步判别法(仅仅是在前面的方法中加入变量选择的功能) 有时，一些变量对于判别并没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。即，一边判别，一边选择判别能力最强的变量，这个过程可以有进有出。一个变量的判别能力的判断方法有很多种，主要利用各种检验，例如Wilks’ Lambda、Rao’s V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了；这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。 Disc.txt例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp)，还剩下七个变量。用x1,x2, x3, x4,x5, x6, x7分别表示标准化后的变量is，se，sa，prr，ms，msr，cs，得到两个典则判别函数（Canonical Discriminant Function Coefficients）： Disc.txt例子根据这两个函数，从任何一个观测值（每个观测值都有7个变量值）都可以算出两个数。把这两个数目当成该观测值的坐标，这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。 Disc.txt例子从上图可以看出，第一个投影（相应于来自于第一个典则判别函数横坐标值）已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就