Spark大数据分析课件 2.2 Spark环境搭建.pptx

下载文档

0
0
约1.82千字
约 12页
2024-12-31 发布于山东
举报
版权申诉
保障服务

Spark大数据分析课件 2.2 Spark环境搭建.pptx

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Spark环境搭建

目录/Contents01Standalone模式部署02JDK安装03Hadoop集群部署04ZooKeeper集群部署05Scala安装

Standalone模式部署01

Standalone模式部署即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。从一定程度上说，该模式是其他两种的基础。借鉴Spark开发模式，我们可以得到一种开发新型计算框架的一般思路：先设计出它的standalone模式，为了快速开发，起初不需要考虑服务（比如master/slave）的容错性，之后再开发相应的wrapper，将stanlone模式下的服务原封不动的部署到资源管理系统yarn或者mesos上，由资源管理系统负责服务本身的容错。目前Spark在standalone模式下是没有任何单点故障问题的，这是借助zookeeper实现的，思想类似于HBasemaster单点故障解决方案。将Sparkstandalone与MapReduce比较，会发现它们两个在架构上是完全一致的：

Standalone模式部署1．下载安装spark2．配置spark在spark官网下载tar.gz安装包，本节使用的是spark2.3.2。在下载安装包时需要对应好Hadoop的版本，本书使用的是Hadoop2.7.4安装包解压完成后需要进行相关的配置，可以在一台机器上配置好之后使用scp命令copy到其他机器上，在配置之前需要将四台虚拟机关机后做一个快照，方便后面两种模式的部署。

SparkonYARN模式部署02

SparkonYARN模式部署这是一种很有前景的部署模式。但限于YARN自身的发展，目前仅支持粗粒度模式（Coarse-grainedMode）。这是由于YARN上的Container资源是不可以动态伸缩的，一旦Container启动之后，可使用的资源不能再发生变化，不过这个已经在YARN计划中了。sparkonyarn支持两种模式：1)yarn-cluster：适用于生产环境；2)yarn-client：适用于交互、调试，希望立即看到app的输出

SparkonYARN模式部署安装包下载解压2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证9.运行实例10.任务监控

SparkHA集群部署03

SparkHA集群部署SparkStandalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题，Spark提供了两种方案：（1）基于文件系统的单点恢复(Single-NodeRecoverywithLocalFileSystem)。主要用于开发或测试环境。当spark提供目录保存sparkApplication和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（sbin/start-master.sh），恢复已运行的sparkApplication和worker的注册信息。（2）基于zookeeper的StandbyMasters(StandbyMasterswithZooKeeper)。用于生产模式。其基本原理是通过zookeeper来选举一个Master，其他的Master处于Standby状态。将spark集群连接到同一个ZooKeeper实例并启动多个Master，利用zookeeper提供的选举和状态保存功能，可以使一个Master被选举成活着的master，而其他Master处于Standby状态。如果现任Master死去，另一个Master会通过选举产生，并恢复到旧的Master状态，然后恢复调度。整个恢复过程可能要1-2分钟。

SparkHA集群部署下载解压安装包2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证

感谢大家的聆听

您可能关注的文档

文档评论（0）

lai + 关注: 实名认证

内容提供者

精品资料

咨询Ta 进入空间

用户编号：7040145050000060

1亿VIP精品文档

更多 >

Spark大数据分析课件 2.2 Spark环境搭建.pptx