SPSS数据的判别分析概要.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSS数据的判别分析概要

zf zf 判别分析 (Discriminate Analysis) 医学: 例1:在医学诊断中,一个病人肺部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌? 肺结核病人、肺部良性肿瘤病人、肺癌病人组成三个总体,病人来自其中一个总体,可通过病人的指标(阴影大小、边缘是否光滑等)用判别分析判断他来自哪个总体(即判断他患的什么病?) 经济学: 例2:股票持有者根据股票近期的变化情况判断此种股票价格下一周是上升还是下跌? 例3:依据一个企业税务报表的数据,判断该企业是否逃税; 例4:为了研究中小企业的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料: 如何进行判类? ---判别分析的基本思想 一、什么是判别分析? 判别分析:根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。 判别分析的特点(基本思想): (1)根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。 (2)根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。 二、判别分析的要求和假设条件 变量属性:被解释变量是属性变量(nonmetric variables) ;解释变量是度量变量(metric variables ) 判别分析最基本的要求: (1)分组类型在两组以上; (2)已知分类的样本中,每组案例的规模必须至少在一个以上; (3)解释变量必须是可测量的,才能计算其平均值和方差,使其合理地应用于统计函数。 假设条件: (1)每一个判别变量(解释变量)不能是其他判别变量的线性组合(避免多重共线性问题)。否则,参数估计的标准误将很大,以至于参数估计统计上不显著。 (2)各组变量的协方差矩阵相等。在此假设下,可以使用很简单的公式计算判别函数和进行显著性检验。 (3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在此条件下,可精确计算显著性检验值和分组归属的概率。 三、判别分析方法 距离判别 首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。 (一)两个总体的距离判别法 设有两个p维正态总体G1 、G2 ,对给定的样本Y,可用如下规则判别:若样本Y到总体G1的距离小于到总体G2的距离,则认为样本Y属于总体G1;反之,则认为样本Y属于总体G2;若样本Y到总体G1和G2的距离相等,则让它待判。 设有个K总体,分别有均值向量 (i=1,2,…,k)和协方差阵∑i= ∑ ,又设Y是一个待判样品。则Y与各总体的距离为(即判别函数): (三)距离判别法的优缺点: 该方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。 贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。 通过计算被判样本x属于k个总体的条件概率P(n/x) , n=1,2…..k. 比较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。 考虑误判损失,比较各类错判损失大小,选取其中最小的,则判定样品属于该总体。 例:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为: x1: 月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0” x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 X8: 家庭赡养的人口数 X9:信用程度,“5”的信用度最高,“1”的信用度最低。 用投影的方法将k个不同总体的p维数据投影到某一个方向,使不同总体之间的p维数据投影尽可能分开,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法。 变量选择和逐步判别法 向后剔除 开始时,所有变量都在模型中。每一步,在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标

您可能关注的文档

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档