网站大量收购闲置独家精品文档,联系QQ:2885784924

模式识别(chapter3)讲述.pptx

  1. 1、本文档共87页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别(chapter3)讲述

1 第3章 聚类分析 (Clustering Analysis) 3.1 聚类分析的概念 3.2 模式相似性测度 3.3 类的定义与类间距离 3.4 聚类的算法 2 3.1 聚类分析的概念 一、聚类分析的基本思想 ★相似的归为一类。 ★模式相似性的度量和聚类算法。 ★无监督分类(Unsupervised) 。 二、特征量的类型 ★物理量----(重量、长度、速度) ★次序量----(等级、技能、学识) ★名义量----(性别、状态、种类) 3 三、方法的有效性 取决于分类算法和特征点分布情况的匹配。 3.1 聚类分析的概念 分类无效时的情况 1.特征选取不当使分类无效。 4 2.特征选取不足可能使不同类别的模式判为一类。 3.特征选取过多可能无益反而有害,增加分析负担并使分析效果变差。 5 4.量纲选取不当。 6 下列是一些动物的名称: 羊 (sheep) 狗 (dog) 蓝鲨(blue shark) 蜥蜴 (lizard) 毒蛇(viper) 猫 (cat) 麻雀(sparrow) 海鸥 (seagull) 金鱼(gold fish) 绯鲵鲣(red-mullet) 蛙 (frog) 要对这些动物进行分类,则不同的特征有不同的分法: 特征选取不同对聚类结果的影响 7 蜥蜴,毒蛇, 麻雀,海鸥,金鱼, 绯鲵鲣, 青蛙 (a) 按繁衍后代的方式分 哺乳动物 非哺乳动物 (b) 按肺是否存在分 金鱼 绯鲵鲣 蓝鲨 无肺 有肺 8 蓝鲨 金鱼 绯鲵鲣 蜥蜴,毒蛇 麻雀,海鸥 青蛙 羊,狗,猫 (d) 按繁衍后代方式和肺是否存在分 非哺乳且有肺 哺乳且无肺 哺乳且有肺 非哺乳且无肺 (c) 按生活环境分 青蛙 羊,狗,猫 蜥蜴,毒蛇 麻雀,海鸥 金鱼 绯鲵鲣 蓝鲨 陆地 水里 两栖 9 距离测度不同,聚类结果也不同 数据的粗聚类是两类,细聚类为4类 10 综上可见: 选择什么特征? 选择多少个特征? 选择什么样的量纲? 选择什么样的距离测度? 这些对分类结果都会产生极大影响。 11 聚类过程遵循的基本步骤 一、特征选择(feature selection) 尽可能多地包含任务关心的信息 二、近邻测度(proximity measure) 定量测定两特征如何“相似”或“不相似” 三、聚类准则(clustering criterion) 以蕴涵在数据集中类的类型为基础 四、聚类算法(clustering algorithm) 按近邻测度和聚类准则揭示数据集的聚类结构 五、结果验证(validation of the results) 常用逼近检验验证聚类结果的正确性 六、结果判定(interpretation of the results) 由专家用其他方法判定结果的正确性 12 聚类应用的四个基本方向 一、减少数据 许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩了。 13 二、假说生成 在这种情况下,为了推导出数据性质的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。 14 三、假说检验 用聚类分析来验证指定假说的有效性。 例如:考虑这样的假说“大公司在海外投资”。 要验证这个假说是否正确,就要对大公司和有代表性的公司按规模、海外活跃度、成功完成项目的能力等进行聚类分析。从而来支持这个假说。 15 四、基于分组的预测 对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类? 例如:考虑被同种疾病感染的病人数据集。 先按聚类分析进行分类,然后对新的病人确定他适合的聚类,从而判断他病情。 16 3.2 模式相似性测度 用于描述各模式之间特征的相似程度 ●距 离 测 度 ●相 似 测 度 ●匹 配 测 度 17 一、距离测度(差值测度) 测度基础:两个矢量矢端的距离 测度数值:两矢量各相应分量之差的函数。 18 常用的距离测度有: 1.欧氏(Euclidean)距离

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档