- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
化学计量学王伟研讨
聚类分析原理及应用 13应化2班 王伟 简介: 无监督的模式识别是在不知道样本分类的情况下进行训练或学习,获得样本分类方面的信息,通常用的方法就是采用聚类分析方法(clustering analysis,CA)。CA对某一没有标出类别的模式样本,按照样本间的相似程度进行分类,具有相似性的归为一类,不具有相似性的分为另一类。这里的相似性不仅仅指实物的显著特征,也包括经过抽象以后特征空间内的特征向量的分布状态。其度量是基于数据对象描述的取值来确定的,通常利用距离来进行描述。 聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量 按照变量对所观察的样本进行分类称为Q型聚类 按照多项经济指标(变量)对不同的地区(样本)进行分类 按照样本对多个变量进行分类,则称为R型聚类 按照不同地区的样本数据对多个经济变量进行分类 两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类) Q型聚类分析的特点 1、可以综合利用多个变量的信息对样本进行分类 2、分类结果是直观的,聚类谱系图非常清楚的表现其数值分类结果 3、聚类分析所得到的结果比传统的分类方法更细致,全面,合理 R 型聚类分析的特点 1、R型聚类分析不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度 2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析 聚类过程 聚类分析算法分类 聚类分析的应用 CA一般可分为三个步骤 特征提取:输入原始样本,由领域专家决定使用哪些特征来刻画样本的本质性质和结构。其中特征选取的是否合理,将会直接影响聚类结果。 聚类策略:根据CA的需要,合理选取聚类算法。聚类分析算法的选择将直接影响聚类的结果和结果的有效性。聚类策略实际上是根据样本特征将样本进行归类,经过规格化后的数据已经没有实际意义,聚类过程不需要再有只是领域的专家参与。聚类结果可以画成一个谱系图。 参数设置:得到了聚类谱系图之后,可凭借经验和领域知识,根据具体的应用来决定闭值的选取。在这个步骤中领域专家可以结合领域知识进一步分析数据,加深对样本的了解。 系统聚类: 系统聚类又称层次聚类(hierarchical methods, HM) 事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类 根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反 合并法: 将每一个样本作为一类,如果是k个样本就分k成类 按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个类别,从而形成了k-1个类别 再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止 总是先把离得最近的两个类进行合并 合并越晚的类,距离越远 事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果 分解法: 分解方法原理与合并法相反 先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止 事实上大多数的层次聚类法属于合并型,其基本步骤相同,差别在于聚类间距离的定义不同。其计算方法有: (1)?最短距离法(Nearest?Neighbor),是指两类之间每个个体距离的最小值;? (2)?最长距离法(Farthest?Neighbor),是指两类之间每个个体距离的最大值;? (3)?组间联接法(Between-groups?Linkage),是指两类之间个体之间距离的平均值; (4)?组内联接(Within-groups?Linkage),是指把两类所有个体之间的距离都考虑在内;? (5)?重心距离法(Centroid?clustering),是指两个类中心点之间的距离;? (6)?离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。 划分聚类 划分聚类(partitioning methods, PM):给定一个含有n个对象的数据集,它将这个数据集划分成m个分组,每一个分组代表一个聚类,且mn。其代表性的算法有:K-均值算法,K-中心点算法 K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。? 快速聚类
文档评论(0)