- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于平均差异度优选初始聚类中心的改进K-均值聚类算法
第 卷 第 期 控 制 与 决 策
年 月
文章编号
基于平均差异度优选初始聚类中心的改进均值聚类算法
李 武 赵娇燕 严太山
湖南理工学院信息与通信工程学院,湖南岳阳
摘 要 针对均值聚类算法对初始聚类中心存在依赖性的缺陷 提出一种基于数据空间分布选取初始聚类中
心的改进算法 该算法首先定义样本距离、样本平均差异度和样本集总体平均差异度 然后将每个样本按平均差
异度排序 选择平均差异度较大且与已选聚类中心的差异度大于样本集总体平均差异度的样本作为初始聚类中
心 实验表明 改进后的算法不仅提高了聚类结果的稳定性和正确率 而且迭代次数明显减少 收敛速度快
关键词 均值聚类;初始聚类中心;样本差异度
中图分类号 文献标志码
ff
, , ,
ff
ff ff
ff ff
ff
; ; ff
心的改进均值聚类算法 为了寻找与数据分布相
聚类分析是指将物理或抽象对象的集合分成由 一致的初始聚类中心 首先计算样本两两之间的距
类似对象组成的多个类的过程 它是研究分类问题 离 然后将每个样本的平均差异度排序 选择平均差
的一种统计分析方法 同时也是数据挖掘的一种重要 异度较大且与已选聚类中心的差异度大于平均差异
方法 均值算法作为一种基于划分的动态聚类算 度的样本作为初始聚类中心 实验表明 改进后的算
法不仅提高了聚类结果的稳定性和正确率 而且迭代
法 获得了广泛应用 然而 均值算法对初始聚
类中心的依赖性使得最终聚类结果不稳定 正确率较 次数明显减少 收敛速度快
低 从而影响算法性能 一些学者对均值算法进行 改进的均值聚类算法
了研究 提出了多种改进算法 这些改进算法取 基本思想
得了较好的聚类结果但没有从根本上摆脱算法对初 为便于表述 首先定义样本距离、每个样本的平
始聚类中心的依赖性 而初始聚类中心选取的随机性 均差异度、样本集的总体平均差异度 个概念
和盲目性使得算法的性能无法得到显著提高 设样本集 为 维向
为此 本文提出基于平均差异度优选初始聚类中 量 为第 次迭代的第 个类 为
收稿日期 ;修回日期
基金项目 国家自然科学基金项目;湖南省自然科学基金项目;湖南省高校创新平台开放
基金项目;湖南省
文档评论(0)