《数据仓库与数据挖掘》实验二聚类分实验报告8.docVIP

下载本文档

43
0
约5.36千字
约 12页
2018-07-06 发布于浙江
举报
版权申诉

《数据仓库与数据挖掘》实验二聚类分实验报告8.doc

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实验二、聚类分析通过计算机编程实现并验证谱系聚类法 1）用Matlab实现谱系聚类算法，并对给定的样本集进行分类； 2）通过改变实验参数，观察和分析影响谱系聚类算法的分类结果与收敛速度的因素；人类认识世界往往首先将被认识的对象进行分类，聚类分析是研究分类问题的多元数据分析方法，是数值分类学中的一支。多元数据形成数据矩阵，见下表1。在数据矩阵中，共有n个样品 x1，x2，…，xn（列向），p个指标（行向）。聚类分析有两种类型：按样品聚类或按变量（指标）聚类。表1 数据矩阵样品指标聚类分析的基本思想是在样品之间定义距离，在变量之间定义相似系数，距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小，将样品（或变量）逐一归类，关系密切的类聚到一个小的分类单位，然后逐步扩大，使得关系疏远的聚合到一个大的分类单位，直到所有的样品（或变量）都聚集完毕，形成一个表示亲疏关系的谱系图，依次按照某些要求对样品（或变量）进行分类。分类统计量----距离与相似系数样品间的相似性度量----距离用样品点之间的距离来衡量各样品之间的相似性程度（或靠近程度）。设是样品之间的距离，一般要求它满足下列条件：在聚类分析中，有些距离不满足3），我们在广义的角度上仍称它为距离。欧氏距离绝对距离 Minkowski 距离 Chebyshev距离方差加权距离其中马氏距离其中 S 是由样品算得的协方差矩阵：样品聚类通常称为Q型聚类，其出发点是距离矩阵。变量间的相似性度量----相似系数当对p个指标变量进行聚类时，用相似系数来衡量变量之间的相似程度（或关联程度）。一般地，若表示变量之间的相似系数，应满足：的绝对值越接近于1，说明变量的关联越大。相似系数中最常用的是相关系数与夹角余弦。相关系数变量之间的相关系数定义为：事实上，是变量的观测值之间的相关系数。夹角余弦变量的观测值，其夹角余弦定义为：变量聚类通常称为 R 型聚类。在 R 型聚类中，相似系数矩阵 C 是出发点，相似系数矩阵可以是相关矩阵，也可以是夹角余弦矩阵。谱系聚类法类间距离定义为简单起见，以i，j分别表示样品，以dij简记i，j之间的距离。Gp，Gq分别表示两个类，设它们分别含有np，nq个样品。若类Gp中有样品，则其均值称为类 Gp 的重心。类Gp与Gq之间的距离记为 Dpq，有多种多样定义方式。最短距离最长距离类平均距离重心距离离差平方和距离类间距离的递推公式按照谱系聚类法的思想，先将样品聚合成小类，在逐步扩大为大类。设类 Gr由类Gp、Gq合并所得，则Gr包含nr=np+nq个样品。问题：由Gp，Gq与其它类Gk(k≠p,q)的距离计算Gr与Gk（k≠p,q）的距离，即建立类间距离的递推公式。最短距离最长距离类平均距离重心距离离差平方和距离谱系聚类法的步骤谱系聚类法的步骤如下： Step1 n 个样品开始时作为 n 个类，计算两两之间的距离，构成一个对称距离矩阵：此时，Dpq=dpq； Step2 选择 D(0)中的非对角线上的最小元素，设这个最小元素是 Dpq。此时，Gp={xp}，Gq={xq}。将Gp，Gq合并成一个新类Gr={Gp，Gq}。在 D(0)中消去Gp和Gq所对应的行与列，并加入有新类Gr与剩下的其它未聚合的类间的距离所组成的一行和一列，得到一个新的距离矩阵D(1)，它是n-1阶方阵； Step3 从 D(1)出发重复 Step2 的作法得 D(2)，再由D(2)出发重复上述步骤，直到n个样品聚为1个大类为止；注意：?在合并过程中要记下合并样品的编号及两类合并时的水平（即距离）并绘制聚类谱系图。谱系聚类法的统计量用谱系聚类法聚类时，聚多少类合适，这是一个实际的问题。一个较好的聚类应该在类内阁样品尽可能相似的前提下，使得类的个数尽可能少。这里需要考虑谱系距离用到的统计量，利用它们，可以在一定程度上判别聚多少类为合适。 R2统计量设谱系得第 G 层共有G个类，定义其中为Gk的重心，Sk越小，说明Gk中各样品越相似。定义 R2 统计量如下： R2总是随着分类数目的减少而减小，可以从R2值的变化看n个样品分成几类最合适。比如，分为5类以前各类的R2减小较缓慢；假定分为5类时，R2=0.85，而下一次合并，即分为4类时R2减小较快，如R2=0.35，则认为分为5类较合适。半偏相关统计量这一统计量与离差平方和距离有关。设类 Gp，Gq的离差平方和分别是将 Gp，Gq合并成Gr后的离差平方和为合并后的离差平方和增量为定义半偏相关统计量为： SPRSQ是上一步R2值与该步R2值的差值，当SPRSQ值越大时，说明上一次合并效果越好。伪F统计量伪F

您可能关注的文档

文档评论（0）

1243595614 + 关注: 实名认证

文档贡献者

文档有任何问题，请私信留言，会第一时间解决。

咨询Ta 进入空间

用户编号：7043023136000000

1亿VIP精品文档

更多 >

《数据仓库与数据挖掘》实验二聚类分实验报告8.docVIP