{品质管理质量认证}基于isaa算法的Iris数据分类.pdfVIP

下载本文档

0
0
约8.2千字
约 17页
2020-08-31 发布于陕西
举报
版权申诉

{品质管理质量认证}基于isaa算法的Iris数据分类.pdf

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

{品质管理质量认证}基于 isaa 算法的 Iris 数据分类  步骤 6(计算整个样本集偏离均值的平均距离) 步骤 7(入口选择) 如这是最后一次迭代(取决于迭代上限) ，则转步骤11 ，并设置，防止合并发生。如果，则转向步骤 8 ，执行分裂步骤；如果，则转向步骤 11 ，执行合并步骤。步骤 8(求各类内各分类标准偏差) 对每个聚类，求其标准偏差式中是类中第个样本的第分量，是的第个分量，是第个聚类第个分量的标准偏差，D 是样本特征维数。步骤 9(求每类具有最大标准偏差的分量) 指每类具有最大标准偏差的分量。步骤 10(分裂计算步骤) 若任一个有，并且有(a)且，或有(b) ，则把分裂成两个聚类，其中心相应为与，把原来的取消，且令，由于与值设置不当将会导致影响到其它类别，因此与可按以下步骤计算：给定一值，；其中值应使中的样本到与的距离不同，但又应使中的样本仍然在分裂后的新样本类中。步骤 11(计算类间聚类中心距离) 类与类的类间距离  步骤 12(列出类间距离过近者) 比较与并将小于的按上升次序排列该队列最大个数是控制合并对数的参数步骤 13(执行合并) 从类间距离最大的两类开始执行合并过程，此时需将与合并，得  且，从第二个开始，则要检查其涉及类别是否已在前面合并过程中被合并，如两者并未被合并，则执行合并过程。步骤 14(结束步骤) 如是最后一次迭代则终止，否则可根据需要转步骤 1 或步骤 2 ，转步骤1 是为了更改控制数。迭代计数要加 1 。以上是整 ISODATA 算法的计算步骤。可以看出 ISODATA 算法与 C 均值算法一样，都是以与代表点的最小距离作为样本聚类的依据，因此比较适合各类物体在特征空间以超球体分布的方式分布，对于分布形状较复杂的情况需要采用别的度量。ISODATA 算法与 C 均值算法的主要不同在于自我控制与调整的能力不同。它们的另一个不同点是，C 均值算法的类均值参数在每个样本归入时随即修改，因而称为逐个样本修正法，而 ISODATA 算法的均值向量或聚类中心参数是在每一次迭代分类后修正的，因而称为成批样本修正法。三．实验过程及结果分析按照算法过程进行仿真，首先设置算法中所需要的控制参数，控制参数的选取有多种选择组合，这里，我们先设置一组控制参数，对 Irisdata 进行聚类，说明算法的实施过程以及对得到的结果进行分析。参数设置如下图所示：其中，确定初始聚类中心个数后，在 150 个原始数据中随机挑选 10 个作为聚类中心，然后对原始 150 个数据以该 10 个聚类中心以最小距离进行聚类。结果如下：结果中的 center 矩阵为聚类中心矩阵，每一列代表一聚类中心，每一列前 4 行为聚类中心的4 个分量，第 5 行为隶属于该类的数据个数。将类内个数过少（小于 10）的聚类中心删除，并对所有数据依照调整后聚类中心重新进行聚类。完成聚类后，计算每类的均值，作为该类新的聚类中心。上图中的第二 center 矩阵即为已经完成均值计算的每类的聚类中心。完成聚类中心初始化后，开始进行迭代，在第一次迭代中(iterative=1) ，迭代次数为奇数，但是当前聚类个数，所以直接进入聚类中心合并过程，结果如下所示：上图中，sortofdis 矩阵为两两聚类中心之间的距离矩阵，并按从大到小排列。每一列代表 2 类之间的距离，第一行为距离，第 2 ，3 行为两类的类别。值得注意的是类别号即对应为聚类中心在聚类中心矩阵 center 中的列数。进入合并步骤不代表一定进行合并处理，当两类的距离小于合并阈值(thmerge=2.5)时，才进行合并处理。且每次迭代，最多进行 2 次合并 (mergenum=2) ，且必须是不同的4 类。由结果观察到，第 3,4 类进行合并，第 6,7 类进行合并。合并后得到新的聚类中心矩阵newcenter ，可看到，新的矩阵相对于之前的聚类中心矩阵，少了 2 列。按照得到的新聚类中心，重新对原始数据进行聚类，得到 center 矩阵，并检验是否有类内样本个数过少的聚类中心，若没有，对每类数据进行平均，得到更新后的聚类中心矩阵（即上图中最后一 center 矩阵），第一次迭代完成。在第 2 次迭代中(iterative=2) ，迭代次数为偶数，直接进