- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
聚类分析报告
聚类算法分析报告
学院班级:
学生学号:
学生姓名:杨阳
同作者:
实验日期:2010年12月
聚类算法分析研究
1实验环境以及所用到的主要软件
WindowsVistaNetBeans6.5.1
Weka3.6MATLABR2009a2实验内容描述
聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”过程,它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法,从算法思想。关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从
正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。实验中主要选择了K均值聚类算法、FCM模糊聚类算法并以网站下载的IRIS和WINE数据集为基础通过MATLAB实现对上述算法的实验测试。然后以WINE数据集在学习了解Weka软件接口方面的基础后作聚类分析,使用最常见的K均值(即K-means)聚类算法和FCM模糊聚类算法。下面简单描述一下K均值聚类的步骤。
K均值算法首先随机的指定K个类中心。然后:
(1)将每个实例分配到距它最近的类中心,得到K个类;
(2)计分别计算各类中所有实例的均值,把它们作为各类新的类中心。重复(1)和(2),直到K个类中心的位置都固定,类的分配也固定。在实验过程中通过利用Weka软件中提供的
simpleKmeans(也就是K均值聚类算法
对WINE数据集进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。然后再在学习了解Weka软件接口方面的基础上对Weka软件进行一定的扩展以加入新的聚类算法来实现基于Weka平台的聚类分析。
3实验过程
3.1K均值聚类算法
3.1.1K均值聚类算法理论
K均值算法是一种硬划分方法,简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K均值算法的划分理论基础是
min??k?Axk?vi
i?1ic2(1)
其中c是划分的聚类数,Ai是已经属于第i类的数据集vi是相应的点到第i类的平均距离,即
vi??Nik?1xkNi,xk?Ai(2)
其中Ni表示在数据集Ai中的对象数。
3.1.2算法的基本过程
step1:任意选择K个对象作为初始的类的中心;
step2:repeat;
step3:根据类中的平均值,将每个数
据点(重新)赋给最相近的类;step4:更
新
类的平均值;
step5:until不再发生变化,即没有对
象进行被重新分配时过程结束。
3.1.3算法代码分析
K均值聚类算法的代码分析过程如
下
首先调用clust_normalize()函数将
数据集标准化具体过程如下
data=clust_normalize(data,#39;range#
39;);
下面是对K均值算法的初始化
ifmax(size(param.c))==1,
c=param.c;
index=randperm(N);
v=X(index(1:c),:);v=v+1e-10;
v0=X(index(1:c)+1,:);v0=v0-1e-10;
else
v=param.c;
c=size(param.c,1);
index=randperm(N);
v0=X(index(1:c)+1,:);v0=v0+1e-10;
end
iter=0;
接着是迭代求解直到满足要求的解
或者达到最大的迭代值
whileprod(max(abs(v-v0))),
iter=iter+1;
v0=v;
fori=1:c
这里是用来计算欧氏距离
dist(:,i)=sum([(X-
repmat(v(i,:),N,1)).],2);end
下面将分类结果赋值
[m,label]=min(dist#39;);
distout=sqrt(dist);
下面计算分类中心
fori=1:c
index=find(label==i);if~isempty(index)
v(i,:)=mean(X(index,:));else
ind=round(rand*N-1);
v(i
您可能关注的文档
最近下载
- 短视频使用入门.pdf VIP
- 2022年度四川省专业技术人员继续教育公需科目考试题(含答案).pdf
- unitoperationsofchemicalengineering化工单元操作.doc
- 愚公移山故事.docx VIP
- 2023贵州省公路建设养护集团有限公司招聘试题及答案解析.docx
- Viacontrol 威盾V3_用户手册.doc VIP
- 川教版(2024)三年级上册信息科技 3.10在线攻略全有哪些信誉好的足球投注网站 课件.pptx VIP
- 华科自控原理王永冀课后答案.doc
- 关注信息安全预防信息诈骗课件.pptx VIP
- 气道净化护理(2023年中华护理学会团体标准).pptx VIP
文档评论(0)