判别和聚类分析1.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
判别和聚类分析1.ppt

判别分析与聚类分析;实际应用问题 ;已知蠓虫类别的数据;2、乳腺癌的诊断问题 ;2、乳腺癌的诊断问题 ;3、DNA序列的分类模型 ;a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg; b1=gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt; ……;方法概述;判别分析; 设有k个类别G1,G2,…,Gk (总体),对任意样品x,希望建立一个准则能判定它属于哪个总体? ; μ1=(μ11,μ12,…,μ1p);1、距离判别;判别规则如下: ① 当w(x)0时, 则 x∈G1 ② 当w(x)0时, 则 x∈G2 ③ 当w(x)=0时, 则 x待判 (线性判别法);x=[1.24,1.8]; M1=[1.24 1.36 1.38 1.38 1.38 1.4 1.48 1.54 1.56; 1.72 1.74 1.64 1.82 1.9 1.7 1.82 1.82 2.08]; M2=[1.14 1.18 1.2 1.26 1.28 1.3; 1.78 1.96 1.86 2.0 2.0 1.96]; G1=M1; G2=M2; u1=mean(G1); u2=mean(G2); S1=COV(G1); S2=COV(G2); S=(9*S1+6*S2)/15; NS=inv(S); W=-2*(x-(u1+u2)/2)*NS*(u1-u2); if W0 n=1; else n=-1; end n plot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*) ;mcfl.m; 当判别准则提出后,还应该研究其优良性。这里我们主要考虑误判概率。;判别情况分析;误判率回代估计法;误判率的交叉确认估计;2、Fisher判别;Fisher判别方法的图形解释;Fisher判别方法概述;Fisher判别方法概述;Af=[1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56; 1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08]; Apf=[1.14,1.18,1.2,1.26,1.28,1.3; 1.78,1.96,1.86,2.0,2.0,1.96]; mu1=mean(Af);mu2=mean(Apf); stdr1=std(Af);stdr2=std(Apf); sr1=zscore(Af);sr2=zscore(Apf); xiefc1=cov(sr1); xiefc2=cov(sr2); sim=0.5*(xiefc1+xiefc2); nsim=inv(sim); a=(mu1-mu2)*nsim m=0.5*(mu1-mu2)*nsim*(mu1+mu2) w=[1.24 1.28 1.4;1.8,1.84,2.04]; y=a*w plot(Af(:,1),Af(:,2),o,Apf(:,1),Apf(:,2),*,w(1,:),w(2,:),*);;Af;聚类分析;方法概述;数据结构;系统聚类法;2、对指标进行聚类 对指标之间的“靠近‘程度往往用相似系数来刻画。;系统聚类法(Hierarchical Clustering)的计算步骤:;Matlab软件对系统聚类法的实现;1、T = clusterdata(X, cutoff) 其中X为数据矩阵,cutoff是创建聚类的临界值。即表示??分成几类。 以上语句等价与以下几句命令: Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff) 以上三组命令更加灵活,可以自由选择各种方法!;2、T = cluster(Z, cutoff) 从逐级聚类树中构造聚类,其中Z是由语句likage产生的(n-1)×3阶矩阵,cutoff是创建聚类的临界值。;4、 Y = pdist(X) Y = pdist(X, metric) 计算数据集X中两两元素间的距离, ‘metric’表示使用特定的方法,有欧氏距离‘euclid’

文档评论(0)

资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档