- 1、本文档共99页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 统计模式识别中的
第四章 统计模式识别中的聚类方法;4.1 相似性准则(相似性度量)
4.2 聚类准则函数
4.3 两种简单的聚类算法
4.4 系统聚类
4.5 分解聚类
4.6 动态聚类
4.7 最小张树聚类
;如下图所示,表示具有相同的试验平均值和样本协方差矩阵的三个数据集 ;4.1 相似性准则(续) ;4.1 相似性准则(续) ;在聚类分析中,常用的聚类要素的数据处理方法有如下几种: ;d、还要注意模式样本测量值的选取,应该是有
效反映类别属性特征(各类属性的代表应均衡)
;(2)马氏(Mahalanobis)距离
定义:马氏距离的平方
其中, 为均值向量, 为协方差矩阵
(3)明氏(Minkowsky)距离
定义:明氏距离: ,
它是若干距离函数的通式:
时,等于欧氏距离;
时,称为“街坊”(city block)距离 ;4.1 相似性准则(续) ;样本相似性度量是聚类分析的基础,针对具体问题,选择适当的相似性度量是保证聚类质量的重要问题。但有了相似性度量还不够,还必须有适当的聚类准则函数。聚类准则函数对聚类质量也有重大影响。
相似性度量 → 集合与集合的相似性。
相似性准则 → 分类效果好坏的评价准则。;4.2 聚类准则函数 ;;4.2 聚类准则函数(续) ;;3.类间距离和准则;4.散射矩阵
①类内散射矩阵
其中 为某一个类型的类内散射矩阵:
表示 类型的第 个样本, 。
;可以定义如下的4个聚类准则: ;4.3 两种简单的聚类算法;4.3 两种简单的聚类算法(续);4.4 系统聚类; 2、最长距离 :两类中相距最远的两个样本间的距离。
3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设ω1类和ω23类间的最短距离为d12,最长距离为d13,ω 23类的长度为d23,则中间距离为:
上式推广为一般情况:;4、重心距离:均值间的距离
5、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值 ;(2)系统聚类的算法;
例:如下图所示
1、设全部样本分为6类,
2、作距离矩阵D(0);;3、求最小元素:
4、把ω1,ω3合并ω7=(1,3)
ω4,ω6合并ω8=(4,6)
5、作距离矩阵D(1);6、若合并的类数没有达到要求,转3。否则停止??
3、求最小元素:
4、ω8,ω5,ω2合并, ω9=(2,5,4,6)
;点集;最短距离;最远距离;4.5 分解聚类;分解聚类框图:;对分算法:略
例:已知21个样本,每个样本取二个特征,原始资料矩阵如下表:
;;∴目标函数; 2、分别计算当 划入; 然后再把 划入 时对应的E值,找出一个最大的E值。
把 划为 的E值最大。
∴
; 次数 E值
1 56.6
2 79.16
3 90.90
4 102.61
5 120.11
6 137.15
7 154.10
8 176.15
9 195.26
10
文档评论(0)