基于Spark的大数据聚类算法-全国高校云计算应用创新大赛.PDF

下载文档 降价啦

37
0
约8.34千字
约 8页
2018-05-01 发布于天津
举报
版权申诉
保障服务

基于Spark的大数据聚类算法-全国高校云计算应用创新大赛.PDF

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Spark的大数据聚类算法-全国高校云计算应用创新大赛

第三届全国高校云计算应用创新大赛技能赛命题一技能赛命题一基于Spark 的大数据聚类算法 1 题目描述聚类分析(Cluster Analysis)试图将属性相似的实例划分到同一个类簇，“相似” 体现在实例在高维特征空间上具有更小的距离。图1 展示了示例性的聚类过程，图中黑色十字表示类簇中心点，随着一步一步的迭代计算，类簇中心点不断被调整，最终所有数据点被清晰划分为3 个类簇，每个类簇中的点与该类簇中心点之间的欧拉距离最小。图1. 二维空间下聚类示例大数据聚类是从大数据中发现价值必须面对的一个基础性问题，“物以类聚、人以群分”也是人类基本认知能力在数据科学中的体现。大数据聚类能有效支撑如客户群细分、文本主题发现、信息检索等大量实际应用。传统聚类方法的重要假设是数据能够一次性载入内存，随着数据量的急剧增大，单机处理已经力不从心，需要人们利用分布式计算系统进行并行处理。同时，由于大部分聚类算法都是迭代型算法，下一轮计算依赖于上一轮的计算结果（如：K-means 新一轮距离计算依赖于上一轮计算出的中心点），因此，Spark 的内存计算方式更适用于分布 1 第三届全国高校云计算应用创新大赛技能赛命题一式聚类算法。本题目希望选手在搭建Spark 平台的基础上，利用Spark 平台设计实现聚类算法，能够对大规模数据进行较为准确的高效聚类。 1.1 聚类问题定义聚类分析中最突出的就是K 均值算法。K 均值用质心来定义原型，其中质心是一组点的均值。K 均值算法首先选择K 个初始质心，其中K 是用户指定的参数，即所期望的簇的个数。每个点指派到距离最近的质心，距离的计算方式有欧拉距离，cosine 距离，等等。指派到一个质心的点集为一个簇。然后，根据指派到簇的点，更新每个簇的质心。更新中心时使用公式 = ∑ 来更新每 ∈ 个中心。重复指派和更新步骤，直到簇不发生变化。符号意义第i 个簇第i 个簇中对象个数对象簇的质心 1.2 本题任务题目给定数据集 KDDCUP1 、及其真实标记文件（Ground-Truth ），请编写Spark 程序，对KDDCUP1 数据集进行聚类，输出类簇标记文件，其文件格式为： 3 2 3