基于Spark的大数据聚类算法-全国高校云计算应用创新大赛.PDF

基于Spark的大数据聚类算法-全国高校云计算应用创新大赛.PDF

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Spark的大数据聚类算法-全国高校云计算应用创新大赛

第三届全国高校云计算应用创新大赛 技能赛命题一 技能赛命题一 基于Spark 的大数据聚类算法 1 题目描述 聚类分析(Cluster Analysis)试图将属性相似的实例划分到同一个类簇,“相似” 体现在实例在高维特征空间上具有更小的距离。图1 展示了示例性的聚类过程, 图中黑色十字表示类簇中心点,随着一步一步的迭代计算,类簇中心点不断被调 整,最终所有数据点被清晰划分为3 个类簇,每个类簇中的点与该类簇中心点之 间的欧拉距离最小。 图1. 二维空间下聚类示例 大数据聚类是从大数据中发现价值必须面对的一个基础性问题,“物以类聚、 人以群分”也是人类基本认知能力在数据科学中的体现。大数据聚类能有效支撑 如客户群细分、文本主题发现、信息检索等大量实际应用。传统聚类方法的重要 假设是数据能够一次性载入内存,随着数据量的急剧增大,单机处理已经力不从 心,需要人们利用分布式计算系统进行并行处理。同时,由于大部分聚类算法都 是迭代型算法,下一轮计算依赖于上一轮的计算结果 (如:K-means 新一轮距离 计算依赖于上一轮计算出的中心点),因此,Spark 的内存计算方式更适用于分布 1 第三届全国高校云计算应用创新大赛 技能赛命题一 式聚类算法。 本题目希望选手在搭建Spark 平台的基础上,利用Spark 平台设计实现聚类 算法,能够对大规模数据进行较为准确的高效聚类。 1.1 聚类问题定义 聚类分析中最突出的就是K 均值算法。K 均值用质心来定义原型,其中质 心是一组点的均值。K 均值算法首先选择K 个初始质心,其中K 是用户指定的 参数,即所期望的簇的个数。每个点指派到距离最近的质心,距离的计算方式有 欧拉距离,cosine 距离,等等。指派到一个质心的点集为一个簇。然后,根据指 派到簇的点,更新每个簇的质心。更新中心时使用公式 = ∑ 来更新每 ∈ 个中心。重复指派和更新步骤,直到簇不发生变化。 符号 意义 第i 个簇 第i 个簇中对象个数 对象 簇 的质心 1.2 本题任务 题目给定数据集 KDDCUP1 、及其真实标记文件 (Ground-Truth ),请编 写Spark 程序,对KDDCUP1 数据集进行聚类,输出类簇标记文件,其文件 格式为: 3 2 3

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档