- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
有序样品聚类法.
有序样品聚类法--最优分割法最优分割法简介1958年Fisher提出处理资料:有序资料任务:寻找最优分割点聚类统计量:离均差平方和基本思想:先将n个样品看成一类,然后依据分类的误差函数逐渐增加分类。聚类步骤设有序样品依次为X(1),X(2),···,X(n)(X(i)为m维向量).用b(n, k)表示将n个有序样品分为k类的某一种方法.常记分法b(n, k)为:G1={i1,i1+1,···,i2-1},G2 = {i2, i2+1, ···, i3-1},··· ··· ··· ··· ···Gk = {ik, ik+1, ···, n},其中分点为1 = i1 i2 i3 ··· ik n = ik+1 -1 (即ik+1= n+1)。定义类的直径设某一类G包含的样品有{X(i),X(i+1), ···,X(j)}(j i),记为G= {i, i+1,···, j}.该类的均值向量XG为用D(i , j)表示这一类的直径,常用的直径有:(1.1)当m=1时,也可以定义直径为(1.2)其中,是这一类数据中的中位数。定义误差函数(损失函数)定义这种分类法的损失函数为(1.3)当n,k固定时,越小表示各类的离差平方和越小,分类是合理的。因此要寻找一种分法,使分类损失函数L达最小。记P(n , k)是使L达到极小的分类法。的递推公式Fisher算法最核心的部分是利用以下两个递推公式:(1.4)以上两个公式由定义即可证明。第二个公式表明,若要找将n个样品分为k类的最优分割,应建立在将j-1个样品分为k-1类的最优分割基础上(这里j=2,3,···,n)最优解的求法若分类数k(1kn)已知,求分类法P(n , k),使它在损失函数意义下达最小.其求法如下:首先找分点jk,使(1.4)达极小,即L[P(n ,k)= L[P(jk-1 , k-1)] + D(jk, n).于是得第k类Gk = {jk, jk+1 ,···, n}.然后找jk-1,使它满足L[P(jk-1 ,k-1)= L[P(jk-1-1 , k-2)] + D(jk-1, jk-1),得到第k-1类Gk-1 = {jk-1, jk-1+1 ,···, jk-1},类似的方法依次可得到所有类G1,G2,···Gk,这就是我们欲求的最优解,即P(n , k)={G1,G2,···Gk}。总之,为了求最优解,主要是计算{D(i ,j);1≤ij≤n}和{L[P(i ,j)];1≤i≤n,i≤j≤n}.三.应用举例下面通过一个例子来说明最优解的具体求法。【例】为了了解儿童的生长发育规律,今统计了男孩从出生到十一岁每年平均增长的重量如下:年龄1 2 3 4 5 6 7 8 9 10 11增加重量(kg)9.3 1.8 1.9 1.7 1.5 1.3 1.4 2.0 1.9 2.3 2.1试问男孩发育可分为几个阶段?③④ K=3 G1={9.3}; G2={1.8,1.9,1.7,1.5,1.3,1.4}; G3={2.0,1.9,2.3,2.1} K=4 G1={9.3}; G2={1.8,1.9,1.7, }; G3={1.5,1.3,1.4}; G4={2.0,1.9,2.3,2.1}
文档评论(0)