- 1、本文档共94页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7第七章聚类分析资料.ppt
* * * 预期的类数, =初始聚类中心个数(可以不等于c), =每一类中允许的最少模式数目, =类内各分量分布的距离标准差上界, =两类中心间的最小距离下界, =在每次迭代中可以合并的类的最多对数, =允许的最多迭代次数。 预期的类数, =初始聚类中心个数(可以不等于c), =每一类中允许的最少模式数目, =类内各分量分布的距离标准差上界, =两类中心间的最小距离下界, =在每次迭代中可以合并的类的最多对数, =允许的最多迭代次数。 * ⒊ 算法原理步骤 ⑴ 任选C个模式特征矢量作为初始聚类中心: , 令 。 ⑵ 将待分类的模式特征矢量集 中的模式逐个按最小距离原则分划给C类中的某一类,即: 如果 则 , 式中 表示 和 的中心 的距离,上角标 表示迭代次数。于是产生新聚类 。 C-均值法 * (4) 如果 ,则结束,否则 ,转至(2)。 (3) 计算重新分类后的各类心 式中 为类 中所含模式的个数。 C-均值法 * 例7.4.3:已知有20个样本,每个样本有2个特征,数据分布如下图,使用C-均值法实现样本分类(C=2)。 第一步:令C=2,选初始聚类中心为 样本序号 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 特征x1 0 1 0 1 2 1 2 3 6 7 特征x2 0 0 1 1 1 2 2 2 6 6 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 8 6 7 8 9 7 8 9 8 9 6 7 7 7 7 8 8 8 9 9 * * * 第三步:根据新分成的两类建立新的聚类中心 第四步: ∵ 转第二步进行第二次叠代。 第二步(第二次叠代):重新计算 到z1(2) , z2(2) 的距离,把它们归为最近聚类中心,重新分为两类, * 第三步(第二次叠代),更新聚类中心 * 第四步, 第二步(第三次叠代), 第三步(第三次叠代),更新聚类中心 进行第三次叠代 * * T G N ) 33 . 5 , 67 . 5 ( ) ... ( 18 1 1 20 5 4 2 ) 1 ( 2 2 = + + + + = = ? ? (0,0.5) * (1.25,1.13) (7.67,7.33) * ISODATA算法 (Iterative Self-Organizing Data Analysis Techniques Algorithm 迭代自组织数据分析) 特点:启发性推理、分析监督、控制聚类结构及人机交互。 条件及约定: 设待分类的模式特征矢量为 ,算法运行前需设定7个初始参数。 算法思想: 在每轮迭代过程中,样本重新调整类别之后计算类内及类间有关参数,并和设定的门限比较,确定是两类合并为一类还是一类分裂为两类,不断地“自组织”,以达到在各参数满足设计要求条件下,使各模式到其类心的距离平方和最小。 * ISODATA算法原理步骤 ⑴ 预置 ① 设定聚类分析控制参数: =预期的类数, =初始聚类中心个数(可以不等于c), =每一类中允许的最少模式数目, =类内各分量分布的距离标准差上界, =两类中心间的最小距离下界, =在每次迭代中可以合并的最大聚类对数, =允许的最多迭代次数。 ② 将待分类的模式特征矢量 读入。 ③ 选定初始聚类中心,可从待分类的模式特征矢量集 中任选 个模式特征矢量作为初始聚类中心。 * ISODATA算法原理步骤 ⑵ 按最小距离原则将模式集 中每个模式分到某一类中,即,如果 则判 式中 表示 和类 的中心 之间的距离。 ⑶ 依据 判断合并。如果类 中样本数 ,则取消该类的中心 , ,转至⑵。 * ISODATA算法原理步骤 ① 计算各类的中心 ② 计算各类中模式到类心
文档评论(0)