- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
{品质管理质量认证}基于
isaa 算法的 Iris 数据分
类
步骤 6(计算整个样本集偏离均值的平均距离)
步骤 7(入口选择)
如这是最后一次迭代(取决于迭代上限) ,则转步骤11 ,并设置,防止合并发生。
如果,则转向步骤 8 ,执行分裂步骤;
如果,则转向步骤 11 ,执行合并步骤。
步骤 8(求各类内各分类标准偏差)
对每个聚类,求其标准偏差
式中是类中第个样本的第分量,是的第个分量,是第个聚类第个分量的标准偏差,D 是
样本特征维数。
步骤 9(求每类具有最大标准偏差的分量)
指每类具有最大标准偏差的分量。
步骤 10(分裂计算步骤)
若任一个有,并且有(a)且,或有(b) ,则把分裂成两个聚类,其中心相应为与,把原来的取
消,且令,由于与值设置不当将会导致影响到其它类别,因此与可按以下步骤计算:
给定一值,;
其中值应使中的样本到与的距离不同,但又应使中的样本
仍然在分裂后的新样本类中。
步骤 11(计算类间聚类中心距离)
类与类的类间距离
步骤 12(列出类间距离过近者)
比较与并将小于的按上升次序排列
该队列最大个数是控制合并对数的参数
步骤 13(执行合并)
从类间距离最大的两类开始执行合并过程,此时需将与合并,得
且,从第二个开始,则要检查其涉及类别是否已在前面合并过程中被合并,如两者并未被合
并,则执行合并过程。
步骤 14(结束步骤)
如是最后一次迭代则终止,否则可根据需要转步骤 1 或步骤 2 ,转步骤1 是为了更改控制数。
迭代计数要加 1 。
以上是整 ISODATA 算法的计算步骤。可以看出 ISODATA 算法与 C 均值算法一样,都是
以与代表点的最小距离作为样本聚类的依据,因此比较适合各类物体在特征空间以超球体分
布的方式分布,对于分布形状较复杂的情况需要采用别的度量。ISODATA 算法与 C 均值算法
的主要不同在于自我控制与调整的能力不同。它们的另一个不同点是,C 均值算法的类均值
参数在每个样本归入时随即修改,因而称为逐个样本修正法,而 ISODATA 算法的均值向量或
聚类中心参数是在每一次迭代分类后修正的,因而称为成批样本修正法。
三.实验过程及结果分析
按照算法过程进行仿真,首先设置算法中所需要的控制参数,控制参数的选取有多种选
择组合,这里,我们先设置一组控制参数,对 Irisdata 进行聚类,说明算法的实施过程以
及对得到的结果进行分析。参数设置如下图所示:
其中,确定初始聚类中心个数后,在 150 个原始数据中随机挑选 10 个作为聚类中心,
然后对原始 150 个数据以该 10 个聚类中心以最小距离进行聚类。结果如下:
结果中的 center 矩阵为聚类中心矩阵,每一列代表一聚类中心,每一列前 4 行为聚类中心
的4 个分量,第 5 行为隶属于该类的数据个数。将类内个数过少(小于 10)的聚类中心删除,
并对所有数据依照调整后聚类中心重新进行聚类。完成聚类后,计算每类的均值,作为该类
新的聚类中心。上图中的第二 center 矩阵即为已经完成均值计算的每类的聚类中心。
完成聚类中心初始化后,开始进行迭代,在第一次迭代中(iterative=1) ,迭代次数为
奇数,但是当前聚类个数,所以直接进入聚类中心合并过程,结果如下所示:
上图中,sortofdis 矩阵为两两聚类中心之间的距离矩阵,并按从大到小排列。每一列代表 2
类之间的距离,第一行为距离,第 2 ,3 行为两类的类别。值得注意的是类别号即对应为聚
类中心在聚类中心矩阵 center 中的列数。进入合并步骤不代表一定进行合并处理,当两类
的距离小于合并阈值(thmerge=2.5)时,才进行合并处理。且每次迭代,最多进行 2 次合并
(mergenum=2) ,且必须是不同的4 类。由结果观察到,第 3,4 类进行合并,第 6,7 类进行合
并。合并后得到新的聚类中心矩阵newcenter ,可看到,新的矩阵相对于之前的聚类中心矩
阵,少了 2 列。按照得到的新聚类中心,重新对原始数据进行聚类,得到 center 矩阵,并
检验是否有类内样本个数过少的聚类中心,若没有,对每类数据进行平均,得到更新后的聚
类中心矩阵(即上图中最后一 center 矩阵),第一次迭代完成。
在第 2 次迭代中(iterative=2) ,迭代次数为偶数,直接进
您可能关注的文档
- {品质管理Q七大手法}某市某某某科技公司IQ物料检验规范.pdf
- {品质管理Q七大手法}五金行业Q共用检验标准.pdf
- {品质管理品质培训}某某某年某某建设工程质量检查员岗位培训参考讲义答案土建质检员.pdf
- {品质管理品质培训}某市双流航都医院质量管理组织讲义.pdf
- {品质管理品质培训}赛尔传媒电能质量行业知识培训.pdf
- {品质管理品质培训}质量检验的基本概念和基本讲义.pdf
- {品质管理品质培训}质量控制计划讲义.pdf
- {品质管理品质知识}德国汽车工业质量标准.pdf
- {品质管理品质知识}护理质量管理与持续改进记录本.pdf
- {品质管理品质知识}技术质量管理模式.pdf
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)