哈工大模式识别第四章第五章讲解.ppt

下载文档 降价啦

42
0
约 144页
2017-02-10 发布于湖北
举报
版权申诉
保障服务

哈工大模式识别第四章第五章讲解.ppt

1、本文档共144页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

哈工大模式识别第四章第五章讲解

* (5) 对于所有的j，若ek≤ej （表明ekei）则将y从wi移到 wk中（否则， eiei ,不用移） (6) 重新计算mi和mk，并修改Jc 。 (7) 若连续迭代N次(即所有样本都运算过) Jc不变，则停止，否则转到2。　　 * 确定类别数的实验方法上述C—均值算法都是在类别c已知条件下进行的。在类别数未知情况下，可以假设类别数是逐步增加的，准则函数随c的增加而单调地减小。可选择平缓时转折处的C值。 * 5.3.1.3 ISODATA算法　　C—均值算法比较简单，但它的自我调整能力也比较差。这主要表现在类别数不能改变，受代表点初始选择的影响也比较大。全称‘迭代自组织数据分析技术’（Iterative Self-Organizing Data Analysis Technique Algorithm）。 ISODATA算法的功能与C—均值算法相比的改进。 1. 不是每调整一个样本的类别就重新计算一次各类均值（逐个样本修正），而是每次把全部样本都调整完毕后再重新计算样本均值（成批样本修正）。 2.考虑了类别的合并与分裂，因而有了自我调整类别数的能力。从而可以得到较为合理的类别数。　 * 5.3.2 分级聚类方法分级聚类方法的目的并不把N个样本分成某一个预定的类别数C，而是把样本集按不同的相似程度要求分成不同类别的聚类。最极端的情况: (1)每个样本各自为一类.相似性最大 (2)将所有样本归一类。相似性最小在这两个极端之间的是：类别数从N逐渐减少，每类的数量相应增加，而类内样本的相似程度也随之下降。分级聚类的两种途径分级聚类可通过两种途径实现：合并、分裂合并：开始时，每个样本自成一类，然后通过合并类别减少类分裂：开始时，所有样本是一类，然后通过分裂类别样本增加类合并方法较简单，后续重点介绍 * 基于合并的分级聚类 1）第一次划分（称为1水平），每个样本各自为一类，N个样本，共N类；总的相似性最大 2）第2次划分（称为2水平），按类别相似性最大原则，合并2个类，此时，共N-1类；相似性减小 3）若是第k次划分（称为k水平），按类别相似性最大原则，合并k-1水平下的2个类，则有N-k+1类 4）最后一次划分（N水平），将所有样本归1类，只有1类。总的相似性最小这种分级聚类，一经合并成一类的样本不再分裂，类别数也随之逐渐减少，类内相似程度逐渐降低。可用一树形结构表示（如下图所示）。 * * 例：6个样本的分类树 100 90 80 70 60 50 40 30 20 10 0 相似度(%) * 相似性度量方法分级聚类方法的关键问题是相似度如何定义的问题，分级聚类方法的算法是比较简单的。分级聚类是对数据集进行划分，在这些数据之间只有度量值之间的差别，因此只能按度量值之间的差异来定义相似度。不同的相似性度量方法，对聚类也有不同效果。 * 三种相似性度量方法两个聚类Гi与Гj之间的相似性度量，用 Δ(Гi,Гj)表示（值越小表明两个类别越相似）。　 1.最近距离　　　　　2.最远距离　　　　　3.均值距离　　　　 * 分级聚类算法初始时设置Гj, j ∈I, I={j|j=1,2,…,N}及距离阈值d（可以取无穷大）。 Гj表示各个聚类集合，N是样本数，初始时每个样本自成一类。步骤1：在集合Гj, j ∈I中找到一对满足下列条件的聚类集合Гi与Гk。 Δ(Гi,Гj)=min {Δ(Гi, Гj), i, j ∈I} 步骤2：若距离超过设定的阈值d，则算法终止；否则，把Гi 并入Гk ，并去掉Гi。步骤3：把i从指标集I中除掉，若I的基数仅等于2时，则终止计算，否则转向步骤1。　　 * 最近距离作相似性度量时聚类结果 * 图中红色和黑色数据点来自两个正态过程左：聚类结果和正态模型的结果一致（两个大类和3个孤立点小类）右，有一个在两个点集交叠区的点（红色），则聚类错误（链接效应）结论： 1）对长条形分布聚类正确，可以出现细长条的类。 2）聚类结果对噪声或数据点波动非常敏感。下图：对于长条形分布：聚类正确最远距离作相似性度量时聚类结果 * A）分布紧密的两类，交叠区无点，正确聚类 B）分布紧密的两类，但交叠区有点（p1,p2），也能正确聚类 C）长条形分布：聚类错误（说明个别远离点对聚类结果影响大，该度量方法不能得到长条形的聚类） * 最远距离作相似性度量时不同距离阈值（d）的影响 * 左：较大的距离阈值（将两类聚成4类）过大的阈值，所有的数据点可能归入一类右：较小的距离阈值（将两类分