- 1、本文档共87页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别(chapter3)讲述
1
第3章 聚类分析
(Clustering Analysis)
3.1 聚类分析的概念
3.2 模式相似性测度
3.3 类的定义与类间距离
3.4 聚类的算法
2
3.1 聚类分析的概念
一、聚类分析的基本思想
★相似的归为一类。
★模式相似性的度量和聚类算法。
★无监督分类(Unsupervised) 。
二、特征量的类型
★物理量----(重量、长度、速度)
★次序量----(等级、技能、学识)
★名义量----(性别、状态、种类)
3
三、方法的有效性
取决于分类算法和特征点分布情况的匹配。
3.1 聚类分析的概念
分类无效时的情况
1.特征选取不当使分类无效。
4
2.特征选取不足可能使不同类别的模式判为一类。
3.特征选取过多可能无益反而有害,增加分析负担并使分析效果变差。
5
4.量纲选取不当。
6
下列是一些动物的名称:
羊 (sheep) 狗 (dog)
蓝鲨(blue shark) 蜥蜴 (lizard)
毒蛇(viper) 猫 (cat)
麻雀(sparrow) 海鸥 (seagull)
金鱼(gold fish) 绯鲵鲣(red-mullet)蛙 (frog)
要对这些动物进行分类,则不同的特征有不同的分法:
特征选取不同对聚类结果的影响
7
蜥蜴,毒蛇,麻雀,海鸥,金鱼,绯鲵鲣, 青蛙
(a) 按繁衍后代的方式分
哺乳动物
非哺乳动物
(b) 按肺是否存在分
金鱼绯鲵鲣蓝鲨
无肺
有肺
8
蓝鲨
金鱼绯鲵鲣
蜥蜴,毒蛇麻雀,海鸥 青蛙
羊,狗,猫
(d) 按繁衍后代方式和肺是否存在分
非哺乳且有肺
哺乳且无肺
哺乳且有肺
非哺乳且无肺
(c) 按生活环境分
青蛙
羊,狗,猫 蜥蜴,毒蛇麻雀,海鸥
金鱼绯鲵鲣 蓝鲨
陆地
水里
两栖
9
距离测度不同,聚类结果也不同
数据的粗聚类是两类,细聚类为4类
10
综上可见:
选择什么特征?
选择多少个特征?
选择什么样的量纲?
选择什么样的距离测度?
这些对分类结果都会产生极大影响。
11
聚类过程遵循的基本步骤
一、特征选择(feature selection)
尽可能多地包含任务关心的信息
二、近邻测度(proximity measure)
定量测定两特征如何“相似”或“不相似”
三、聚类准则(clustering criterion)
以蕴涵在数据集中类的类型为基础
四、聚类算法(clustering algorithm)
按近邻测度和聚类准则揭示数据集的聚类结构
五、结果验证(validation of the results)
常用逼近检验验证聚类结果的正确性
六、结果判定(interpretation of the results)
由专家用其他方法判定结果的正确性
12
聚类应用的四个基本方向
一、减少数据
许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可当作独立实体来对待。从这个角度看,数据被压缩了。
13
二、假说生成
在这种情况下,为了推导出数据性质的一些假说,对数据集进行聚类分析。因此,这里使用聚类作为建立假说的方法,然后用其他数据集验证这些假说。
14
三、假说检验
用聚类分析来验证指定假说的有效性。
例如:考虑这样的假说“大公司在海外投资”。
要验证这个假说是否正确,就要对大公司和有代表性的公司按规模、海外活跃度、成功完成项目的能力等进行聚类分析。从而来支持这个假说。
15
四、基于分组的预测
对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类?
例如:考虑被同种疾病感染的病人数据集。
先按聚类分析进行分类,然后对新的病人确定他适合的聚类,从而判断他病情。
16
3.2 模式相似性测度
用于描述各模式之间特征的相似程度
●距 离 测 度
●相 似 测 度
●匹 配 测 度
17
一、距离测度(差值测度)
测度基础:两个矢量矢端的距离
测度数值:两矢量各相应分量之差的函数。
18
常用的距离测度有:
1.欧氏(Euclidean)距离
您可能关注的文档
最近下载
- 7.2+弹力(课件)-2024-2025学年八年级物理下册同步精品课堂(人教版2024).pptx VIP
- 强震球:五年级《分数的意义》课件(13页)-有哪些信誉好的足球投注网站.pptx VIP
- 2023年苏州市相城区教育局招聘事业编制教师考试真题.pdf
- 混凝土课程设计无错版(中南大学).doc
- 隧道专业英汉词.doc
- 《项目管理精华:给非职业项目经理人的项目管理书》读书笔记.docx
- 《柏林广场A1》练习册听力原文Lektion1-6.doc
- 人教版八年级物理下册 《弹力》课件.ppt VIP
- 重污染天气重点行业移动源应急管理技术指南及编制说明.pdf VIP
- 足浴技师礼貌礼节培训方案.pptx
文档评论(0)