- 1、本文档共61页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别-第13讲-非监督学习方法讲解
* * 【动态聚类】 C 均值聚类方法用于非监督模式识别的问题: 1. 要求类别数已知; 2. 是最小方差划分,并不一定能反映内在分布; 3. 与初始划分有关,不保证全局最优。 C 均值算法 * 在类别数未知情况下使用C—均值算法时,可以假设类别数是逐步增加的,例如对c=1,2,3,…分别使用该算法。 准则函数 是随c的增加而单调地减少的。如果样本集的合理聚类数为c类,当类别数继续增大时,相当于将聚类很好的类别又分成子类,则 值虽然继续减少但会呈现平缓趋势,如果作一条 值随c变化的曲线,则其拐点对应的类别数就比较接近于最优聚类数。 【C均值算法-类别数未知】 * 但是并非所有的情况都能找到明显的转折点。在无明显的转折点时,这种选择最佳分类数的方法将失效。一般需要利用先验知识对不同的聚类结果进行分析比较。 【C均值算法-类别数未知】 * C 均值算法比较简单,但它的自我调整能力也比较差。这主要表现在类别数必须事先确定,不能改变,这种主观确定数据子集数目并不一定符合数据集自身的特点,受代表点初始选择的影响也比较大。 类似于C 均值算法,ISODATA算法的聚类中心也是通过样本均值的迭代运算来决定。与C均值算法不同的是, ISODATA算法 将硬性确定聚类数目改成给出这个数目的期望值,作为算法的一个控制量。在算法中又加上分裂与合并机制,增加了一些试探性步骤和人机交互的“自组织”处理方式,因而能使聚类结果比较适应数据集的内在特性。 ISODATA算法与C 均值算法相比,在下列几方面有改进。 1.考虑了类别的合并与分裂,因而有了自我调整类别数的 能力。 合并主要发生在某一类内样本个数太少的情况,或两类 聚类中心之间距离太小的情况。 【迭代自组织的数据分析算法-ISODATA】 * 分裂则主要发生在某一类别的某分量出现类内方差过大的现象,因而宜分裂成两个类别,以维持合理的类内方差。给出一个对类内分量方差的限制参数 ,用以决定是否需要将某一类分裂成两类。 2.由于算法有自我调整的能力,因而需要设置若干个控 制用参数。 迭代自组织算法流程图如图5-7所示。 【迭代自组织的数据分析算法-ISODATA】 * ISODATA算法的具体步骤如下: 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 【迭代自组织的数据分析算法-ISODATA】 * 步骤9(求每类具有最大标准偏差的分量) 步骤10(分裂计算步骤) 【迭代自组织的数据分析算法-ISODATA】 * 合并处理: 步骤11(计算全部聚类中心之间的距离) 【迭代自组织的数据分析算法-ISODATA】 * 步骤12(列出类间距离过近者) 步骤13(执行合并) 【迭代自组织的数据分析算法-ISODATA】 * 步骤14(结束步骤) 如果迭代运算次数已达最大的迭代次数I,即是最后一次迭代,则算法结束;否则,如果需要由操作者改变输入参数,转入步骤1,设计相应的参数;否则,转入步骤2。到了本步运算,迭代运算的次数加1。 以上是整个ISODATA算法的计算步骤。可以看出ISODATA算法与C 均值算法一样,都是以与代表点的最小距离作为样本聚类的依据,因此比较适合各类物体在特征空间以超球体分布的方式分布,对于分布形状较复杂的情况需要采用别的度量。ISODATA算法与C均值算法的主要不同在于自我控制与调整的能力不同。 【迭代自组织的数据分析算法-ISODATA】 * ISODATA算法流程图 【迭代自组织的数据分析算法-ISODATA】 * 【基于样本和核的相似性度量的动态聚类算法】 * 【基于样本和核的相似性度量的动态聚类算法】 * 【基于样本和核的相似性度量的动态聚类算法】 * 【近邻函数准则算法】 定义 第七章 非监督学习方法 * 【近邻函数准则算法】 第i类和第j类间最小近邻函数值定义为: 相似性分析 第i类内最大连接损失记为: aimax 第i类与第j类之间的连接损失定义为bij,它的设计目标是:如果两类间的最小近邻值大于任何一方的类内的最大连接损失时,损失代价就是正的,从而应该考虑把这两类合并 第七章 非监督学习方法 * 【近邻函数准则算法】 总类间损失: 相似性分析 准则函数: 算法步骤: 计算距离矩阵 用距离矩阵计算近邻矩阵 计算近邻函数矩阵 在L 中,每个点与其最近邻连接,形成初始的划分 对每两个类计算rij 和aimax,ajmax ,只要rij 小于aimax、ajmax中的任何一个,就合并两类(建立
文档评论(0)