模式识别导论本.pptVIP

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别导论本

三、K 均值算法 以上算法是逐一有哪些信誉好的足球投注网站确定聚类中心,下面介绍的,则是首先确定若干初始聚类中心,然后依一定算法改变或调整这些中心,使它们逐步趋于合理 K均值算法要求各类样本到聚类中心的距离平方和最小,它是在误差平方和准则的基础上建立起来的 (1)任选K个初始聚类中心 一般以开头K个样本作为初始中心 (2)逐个将模式样本集 的每一样本按最小距离原则分配给K个聚类中心,形成K个类群,即在第m次迭代时,若 则 ,这里 表示第m次迭代时,以第j个聚类中心为代表的聚类域。 (3)由(2),计算新的聚类中心,即 式中 为第 个聚类域 中的样本个数。其均值向量作为新的聚类中心,因为这样可以使误差平方和准则函数 达到最小值 (4)若 算法收敛,计算完毕。否则回到(2),进行下一次迭代。 例2 图4-3-3所示为二维模式样本的分布,现用K均值算法分类 第一步: 取K=2,令 第二步 第三步: 计算新的聚类中心 模式识别导论 武汉大学遥感信息工程学院 马洪超 第四讲 聚 类 分 析 按距离聚类的概念 模式相似性测度与聚类准则 聚类算法 对聚类的评价 An old Chinese saying: 物以类聚,人以群分 引言 没有训练样本存在,属于非监督分类。目的是将一批数据(模式)组成一些“有意义”的集合(聚类) 这个思想在生物学、社会学、医学、地球科学等学科都是很常见的 下面举一个生物学中的例子:设我们有下列动物:羊,狗,猫,麻雀,海鸥,小毒蛇,金鱼,红色mullet(一种小海鱼,可以吃),蓝色鲨鱼和青蛙。为将它们分成不同的类别,我们需要一定的准则。如果我们不同的准则来聚类,可以形成不同的结果,如下面所示 羊、狗、 猫、鲨鱼 麻雀、海鸥、小 毒蛇、金鱼、 青蛙、红mullet 以产后代的方式分 金鱼、红mullet、 鲨鱼 羊、麻雀、狗、海鸥 ………… 以肺是否存在分 金鱼、红mullet、 鲨鱼 羊、麻雀、 狗、海鸥 ………… 青蛙 以生活环境分 麻雀、青蛙、 海鸥、小毒蛇 羊、狗、 猫 鲨鱼 金鱼、 红mullet 以产后代的方式和是否有肺联合标准来分 这个例子说明两个问题:聚类在生物分类中很常见,不同的准则结果有很大的差别 人类总是将获取的信息在聚类,否则,不可能处理每个信息。然后根据每个类的共同特征来表征这个类。比如当我们看见草地上一条狗的时候,我们会推断它的叫声,因为狗叫声作是一个共同特征 聚类过程如下: 特征的选择 相似性度量 聚类准则 聚类算法 聚类评价 聚类结果的解译 按距离聚类的概念 所谓聚类分析就是根据模式的特征空间分布,按点间距离的大小确定其相似程度,进而进行归类工作的,一般说来,可以认为每类模式都聚集在一个有代表性的或典型的模式周围,这个有代表性的模式称为聚类中心,或称为标准模式 若有M个类别 其标准模式分别为 ,任一模式x与第 类标准模式间的距离表示为 聚类分析就是按照这种距离函数(或者更加广义的相似性度量)来进行归类处理,由于以最小距离为准则,故可以认为聚类分析的分类器是最小距离分类器 ?? 不考虑无关项,上面的式子可以转化为: 设模式特征空间为n维空间,即有 可见最小距离分类器是线性分类器的特殊情况 模式相似性测度与聚类准则 同一类模式的特征数据都是相近的或相同的,这一性质称为模式的相似性。这种相似性用什么公式来表达,也就相似性测度问题。式(4-1-1)是用距离函数来表示对相似性的度量,它是一种常用的测度。一般用于模式识别的相似性测度有如下几种 (1)明氏(Minkowaski)距离 n维模式向量 与 之间的明氏距离为 称为“城市街坊距离”(“city block” distance)。 当m=2时,即式(4-1-1),它又称为欧氏距离。 当 时,称为切比雪夫距离 (2)马氏(Mahalanobis)距离 第一类 第二类 其中m为均值向量,C 为协方差矩阵 欧氏距离和马氏距离之间的差别: 欧氏距离来说应该是属于第一类 例子:二维两类问题,设都服从正态分布,协方差矩阵一样 计算向量 到这两类的欧氏距离和马氏距离 可见,给定的向量和第一类的中心比较近。但如果从欧氏距离类看,则是相反的,下图 (3)向量夹角余弦 它反映了几何相似性,在模式向量具有扇形分布时常采用这种测度 当模式特征向量各分量取0、1二值时,常采用此式 二、聚类准则 当采用某一相似性测度如欧氏距离对所有模式进行判别时,将距离数值计算出来,必须确定一

文档评论(0)

phltaotao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档