- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Spark的大数据聚类算法-全国高校云计算应用创新大赛
第三届全国高校云计算应用创新大赛 技能赛命题一
技能赛命题一
基于Spark 的大数据聚类算法
1 题目描述
聚类分析(Cluster Analysis)试图将属性相似的实例划分到同一个类簇,“相似”
体现在实例在高维特征空间上具有更小的距离。图1 展示了示例性的聚类过程,
图中黑色十字表示类簇中心点,随着一步一步的迭代计算,类簇中心点不断被调
整,最终所有数据点被清晰划分为3 个类簇,每个类簇中的点与该类簇中心点之
间的欧拉距离最小。
图1. 二维空间下聚类示例
大数据聚类是从大数据中发现价值必须面对的一个基础性问题,“物以类聚、
人以群分”也是人类基本认知能力在数据科学中的体现。大数据聚类能有效支撑
如客户群细分、文本主题发现、信息检索等大量实际应用。传统聚类方法的重要
假设是数据能够一次性载入内存,随着数据量的急剧增大,单机处理已经力不从
心,需要人们利用分布式计算系统进行并行处理。同时,由于大部分聚类算法都
是迭代型算法,下一轮计算依赖于上一轮的计算结果 (如:K-means 新一轮距离
计算依赖于上一轮计算出的中心点),因此,Spark 的内存计算方式更适用于分布
1
第三届全国高校云计算应用创新大赛 技能赛命题一
式聚类算法。
本题目希望选手在搭建Spark 平台的基础上,利用Spark 平台设计实现聚类
算法,能够对大规模数据进行较为准确的高效聚类。
1.1 聚类问题定义
聚类分析中最突出的就是K 均值算法。K 均值用质心来定义原型,其中质
心是一组点的均值。K 均值算法首先选择K 个初始质心,其中K 是用户指定的
参数,即所期望的簇的个数。每个点指派到距离最近的质心,距离的计算方式有
欧拉距离,cosine 距离,等等。指派到一个质心的点集为一个簇。然后,根据指
派到簇的点,更新每个簇的质心。更新中心时使用公式 = ∑ 来更新每
∈
个中心。重复指派和更新步骤,直到簇不发生变化。
符号 意义
第i 个簇
第i 个簇中对象个数
对象
簇 的质心
1.2 本题任务
题目给定数据集 KDDCUP1 、及其真实标记文件 (Ground-Truth ),请编
写Spark 程序,对KDDCUP1 数据集进行聚类,输出类簇标记文件,其文件
格式为:
3
2
3
您可能关注的文档
- 创腾科技有限公司2017年经典模拟方法在材料模拟中的-创腾学院.PDF
- 2012年政项目建设债券2015年跟踪信用评级报告.PDF
- 制备纳米BaSO4的w/o微乳液体系组成及稳定性-化工学报.PDF
- 创伤弧菌物种特异性检测靶标基因的发掘及评价-水产学报.PDF
- 利用实时路况数据聚类方法检测城交通拥堵点-地理科学进展.PDF
- 利用蛋白质组学技术研究益生菌酸耐受应答过程中相关-动物营养学报.PDF
- 利用导向管喷动流化床电极从低浓度溶液中回收铜-高校化学工程学报.PDF
- 可可豆加工贸易单耗标准.doc
- 剧烈变化环境下丰水地区水量水质互馈优化分配关键技术-科学研究院.PDF
- 制订我国污染场地土壤风险筛选值的几点建议-环境监测管理与技术.PDF
文档评论(0)