大数据技术与应用基础第8章开源集群计算环境Spark.pptx

大数据技术与应用基础第8章开源集群计算环境Spark.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
能力要求CAPACITY理解理解Spark的工作机制。了解如何根据实际需求选择合适的算子操作数据。了解使用Spark提供的算子对数据进行转化。熟悉对源数据结构格式进行分析。Spark简介Spark接口实战Spark编程之RDDSpark实战案例之统计1000万人口的平均年龄Spark MLlib实战(聚类实战)一、Spark简介简介Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce的优点;但不同于MapReduce的是Spark工作中间输出结果可以保存在内存中,而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark简介Spark接口实战Spark编程之RDDSpark实战案例之统计1000万人口的平均年龄Spark MLlib实战(聚类实战)二、Spark接口实战环境要求 IDEA使用和打包Ubuntu 16.04 server64JDK 1.8.0Hadoop 2.6.0Spark 1.5.2Scala 2.11.7集成开发环境:IDEA 2016-IC(需安装scala插件)(1)启动IDEA→“Welcome to IntelliJ IDEA”→“Create New Project”→“Scala”→“Non-SBT”→创建一个名为text的project(注意这里选择自己安装的JDK和scala编译器) →“Finish”。(2)增加开发包:依次选择“File”→“Project Structure”→“Libraries”→“+”→“java”→选择/opt /spark/spark-1.5.2/lib/spark-assembly-1.5.2-hadoop2.6.0.jar二、Spark接口实战IDEA使用和打包 object WordCount { def main(args: Array[String]) { if (args.length == 0) { System.err.println(Usage: WordCount file1) System.exit(1) }? val conf = new SparkConf().setAppName(WordCount) val sc = new SparkContext(conf) sc.textFile(args(0)).flatMap(_.split()).map(x=(x,1)).reduceByKey(_+ _).take(10).foreach(println) sc.stop() } }(3)编写代码。在src目录下创建1个名为text的package,并增加一个Scala class类型为Object。实现单词计数的WordCount代码,如下所示:package text/** * Created by hadoop on 9/1/16. */import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.SparkContext._?二、Spark接口实战IDEA使用和打包(4)生产程序包。生成程序包之前要先建立一个artifacts,依次选择“File”→“Project Structure”→“Artifacts”→“+”→“Jars”→“From moudles with dependencies”,然后随便选一个Class作为主Class;单击“OK”按钮后,对artifacts进行配置,修改Name为text,删除Output Layout中text.jar中的几个依赖包,只剩text项目本身;单击“OK”按钮后,选择“Build”→“Build Artifacts”→“text”→“build”进行打包,经过编译后,程序包放置在ideaProjects/text/out/artifacts/text目录下,文件名为text.jar。(5)运行。把spark自带文件README.md上传到hdfs,命令如下。hadoop fs –put /opt/spark/README.md /user/hadoop二、Spark接口实战IDEA使用和打包运行完成后在Web监控界面可以看到结果信息,如下图Spark简介Spark接口实战Spark编程之RDDSpark实战案例之统计1000万人口的平均年龄Spark MLlib实战(聚类实战)三、Spark编程之RDDRDD是Spark中的抽象数据结构

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档