数据挖掘实验指导剖析.docx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘技术实验指导刘小明实验1. Matlab基础实践实验目的熟悉matlab的基本用法实验内容1. 编写一个函数,计算给定半径的圆的周长与面积。函数名为fcircle。2. matlab绘图,在[0,2π]区间内,绘制曲线3. 熟悉课件中matlab一维和2维数组,数组下标、字符串等相关内容。实验二 聚类算法实验指导 实验目的 聚类分析是数据分析中的一种重要技术,它的应用极为广泛。许多领域中都会涉及聚类分析方法的应用与研究工作,如数据挖掘、统计学、机器学习、模式识别、生物学、空间数据库技术、电子商务等。用Matlab 7实现聚类基本算法. 掌握聚类算法中以下的关键步骤的实现1)选择模型类别2)定义代价函数3)选择模型结构4)有哪些信誉好的足球投注网站模型参数实验内容1)利用clusterdata函数对数据样本进行一次聚类2)分步聚类:( 1)用pdist函数计算变量之间的距离,找到数据集合中两辆变量之间的相似性和非相似性;( 2)用 linkage函数定义变量之间的连接;( 3)用cophenetic函数评价聚类信息;( 4)用 cluster函数进行聚类。实验步骤1)一次聚类。任意生成一个2维数据集,用Clusterdata函数对其进行聚类,并用图示方式显示聚类结果提示:Clusterdata函数可以视为pdist、 linkage与 cluster的综合,一般比较简单。【clusterdata函数:调用格式: T=clusterdata(X,cutoff)????????????????????????? ?等价于Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluster(Z,cutoff)? 】2)分步聚类( 1)求出变量之间的相似性用pdist生成一个 M*(M-1)/2个元素的行向量,分别表示 M个样本两两间的距离。用squareform函数将其转化为方阵,其中 x(i,j)表示第i个样本与第 j个样本之的距离,对角线均为 0.提示:用pdist函数计算出相似矩阵,有多种方法可以求距离,若此前数据还未无量纲化,则可用zscore函数对其标准化【pdist函数:调用格式: Y=pdist(X,’metric’)?说明: X是 M*N矩阵,为由 M个样本组成,每个样本有 N个字段的数据集????????metirc取值为:’euclidean’:欧氏距离(默认) ‘seuclidean’:标准化欧氏距离; ‘mahalanobis’:马氏距离 … 】( 2)用 linkage函数来产生聚类树提示:【 linkage函数:调用格式: Z=linkage(Y,’method’)说明: Y为pdist函数返回的 M*(M-1)/2个元素的行向量,??method可取值: ‘single’:最短距离法(默认); ’complete’:最长距离法;??????????????????????????????????‘average’:未加权平均距离法; ’weighted’:加权平均法????????????????????????????? ? ?‘centroid’:质心距离法; ????? ‘median’:加权质心距离法;?????????????????????????????? ? ‘ward’:内平方距离法(最小方差算法)】返回的 Z为一个 (M-1)*3的矩阵,其中前两列为索引标识,表示哪两个序号的样本可以聚为同一类,第三列为这两个样本之间的距离。另外,除了 M个样本以外,对于每次新产生的类,依次用 M+1、 M+2、 …来标识。为了表示 Z矩阵,我们可以用更直观的聚类数来展示,方法为:dendrogram(Z), 产生的聚类数是一个 n型树,最下边表示样本,然后一级一级往上聚类,最终成为最顶端的一类。纵轴高度代表距离列。???????? 另外,还可以设置聚类数最下端的样本数,默认为 30,可以根据修改dendrogram(Z,n)参数 n来实现, 1nM。dendrogram(Z,0)则表 n=M的情况,显示所有叶节点。( 3)用cophenetic函数评价聚类信息提示:【cophenet函数:?? 调用格式: c=cophenetic(Z,Y)??说明:利用pdist函数生成的 Y和 linkage函数生成的 Z计算cophenet相关系数。】cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度 ,就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性,另外也可以用 inconsistent表示量化某个层次的聚类上的节点间的差异性。( 4)最后,用 cluster进行聚类,返回聚类列。??实验三 分类算法实验指导 实验目的 用Ma

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档