为什么选择基于hadoop平台的canopy-kmeans并行算法.ppt

为什么选择基于hadoop平台的canopy-kmeans并行算法.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
为什么选择基于hadoop平台的canopy-kmeans并行算法

Cloud Computing 分别执行Canopy算法和Kmeans算法 Cloud Computing 实验结果分析 并行算法收敛曲线图 算法加速比分析 Cloud Computing 算法可扩展性分析 1 2 3 课题的背景 基于Hadoop平台的Canopy-Kmeans并行算法 课题总结 Cloud Computing 4 实验与结果分析 课题总结——已完成的工作 针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类中心敏感等问题,提出了一种基于Hadoop平台的并行CK-means聚类算法,该算法采用Canopy算法和余弦相似度度量来改善K-means算法在确定初始聚类中心的盲目性,采用并行计算框架对算法并行扩展,使之能够适应海量数据处理。实验结果表明提出的基于Hadoop 平台的CK-means并行算法具有更好的聚类质量,在处理海量数据时具有良好的加速比和扩展性。 课题总结——已完成的工作 本文的主要工作有: (1)针对传统的串行K-means聚类算法在处理海量数据时出现性能及初始聚类 中心敏感等问题,提出了一种基于Hadoop平台的并行CK-means聚类算法。 (2)通过利用代价低的余弦相似性度量方式的Canopy算法快速获取聚类中心作 为K-means并行算法的初始聚类中心,加快K-means算法的收敛速度。 (3)该算法对原始数据使用基于余弦相似度度量方式的Canopy算法进行聚类和 覆盖划分,使得并行K-means算法进行精确聚类时不需要计算不处于同一个 Canopy的点之间的距离,这在很大程度上减少计算量。 (4)实验验证所提出的CK-means算法的聚类质量、加速比和扩展性。 研究进度—存在的问题 虽然在搭建好的Hadoop平台上对本文提出的一种基于Hadoop平台的CKmeans算法进行了实验验证,但实验数据单一,并且由于条件有限,adoop平台下处理数据的结点较少,这也造成了该算法在不同量的结点上得出的结论,且本实验没有在单机模式下也就是看kmeans串行算法进行对比实验,这也将是论文下一步的工作重点。 课题总结——下一步改进计划 (1)继续对Hadoop平台的相关技术进行研究,对Hadoop中的HDFS分布式存储系统与MapReduce编程模式做进一步研究。 (2)继续完善实验平台,由于实验室结点有限,以后要尽量选择多的节点对本文提出的算法进行并行实验,并选择不同数据集对本文提出的算法验证。 期刊论文发表情况(已见刊) 卢胜宇,王静宇,张晓琳,高俊峰.基于Hadoop平台的K-means聚类算法优化研究[J].内蒙古科技大学校报,2016,35:264-268. 谢 谢 * 基于Hadoop数据挖掘算法研究 导师:王静宇 学生:卢胜宇 Cloud Computing 1 2 3 课题的背景 基于Hadoop平台的Canopy-Kmeans并行算法 课题总结 Cloud Computing 4 实验与结果分析 相关概念 Cloud Computing 课题背景 聚类算法及其分类 Kmeans算法 Canopy算法 Hadoop MapReduce Cloud Computing 聚类算法及其分类 聚类是对点进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间距离比较短,而不同簇中点之间距离较大。 课题背景 Cloud Computing 课题背景 聚类主要包括以下几个过程:数据准备、特征选择、提出、特征 提取、聚类、聚类结果验证。动态的聚类过程步骤如下所示: Cloud Computing 课题背景 Canopy 算法是 McCallum提出的一种简单、快速、但不太准确的聚类方法,是专门应对高维海量数据源的一种新型聚类算法。算法的思路是:首先在计算数据样本距离时采用算法复杂度低的距离度量(metric distance),把样本数据集划分为一些部分重叠的子集,这种子集称之为华盖(canopies)。然后,在传统聚类中,比如 k 均值,应用复杂度高的度量距离,进一步计算,从而使得高维海量数据源聚类难题易于实现。 K-Means算法是由 MacQueen 提出来的,该算法思想简单,实现相对容易,在多个学科里面都有广泛应用。它是聚类算法中最常见的划分方法,所谓的划分方法就是给定一个包含 n 个数据对象的数据集,将数据集划分为 k 个子集,其中每个子集均代表一个聚类,同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。 Cloud Computing Hadoop平台 Hadoop是Apache旗下开源的分布式计算框架,可编写以及可运行分布式应用来处理大规模数据。Hadoop

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档