网站大量收购闲置独家精品文档,联系QQ:2885784924

Spark大数据分析 课件 2.2 Spark环境搭建.pptx

Spark大数据分析 课件 2.2 Spark环境搭建.pptx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Spark环境搭建

目录/Contents01Standalone模式部署02JDK安装03Hadoop集群部署04ZooKeeper集群部署05Scala安装

Standalone模式部署01

Standalone模式部署即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。借鉴Spark开发模式,我们可以得到一种开发新型计算框架的一般思路:先设计出它的standalone模式,为了快速开发,起初不需要考虑服务(比如master/slave)的容错性,之后再开发相应的wrapper,将stanlone模式下的服务原封不动的部署到资源管理系统yarn或者mesos上,由资源管理系统负责服务本身的容错。目前Spark在standalone模式下是没有任何单点故障问题的,这是借助zookeeper实现的,思想类似于HBasemaster单点故障解决方案。将Sparkstandalone与MapReduce比较,会发现它们两个在架构上是完全一致的:

Standalone模式部署1.下载安装spark2.配置spark在spark官网下载tar.gz安装包,本节使用的是spark2.3.2。在下载安装包时需要对应好Hadoop的版本,本书使用的是Hadoop2.7.4安装包解压完成后需要进行相关的配置,可以在一台机器上配置好之后使用scp命令copy到其他机器上,在配置之前需要将四台虚拟机关机后做一个快照,方便后面两种模式的部署。

SparkonYARN模式部署02

SparkonYARN模式部署这是一种很有前景的部署模式。但限于YARN自身的发展,目前仅支持粗粒度模式(Coarse-grainedMode)。这是由于YARN上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生变化,不过这个已经在YARN计划中了。sparkonyarn支持两种模式:1)yarn-cluster:适用于生产环境;2)yarn-client:适用于交互、调试,希望立即看到app的输出

SparkonYARN模式部署安装包下载解压2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证9.运行实例10.任务监控

SparkHA集群部署03

SparkHA集群部署SparkStandalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:(1)基于文件系统的单点恢复(Single-NodeRecoverywithLocalFileSystem)。主要用于开发或测试环境。当spark提供目录保存sparkApplication和worker的注册信息,并将他们的恢复状态写入该目录中,这时,一旦Master发生故障,就可以通过重新启动Master进程(sbin/start-master.sh),恢复已运行的sparkApplication和worker的注册信息。(2)基于zookeeper的StandbyMasters(StandbyMasterswithZooKeeper)。用于生产模式。其基本原理是通过zookeeper来选举一个Master,其他的Master处于Standby状态。将spark集群连接到同一个ZooKeeper实例并启动多个Master,利用zookeeper提供的选举和状态保存功能,可以使一个Master被选举成活着的master,而其他Master处于Standby状态。如果现任Master死去,另一个Master会通过选举产生,并恢复到旧的Master状态,然后恢复调度。整个恢复过程可能要1-2分钟。

SparkHA集群部署下载解压安装包2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证

感谢大家的聆听

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档