- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Spark环境搭建
目录/Contents01Standalone模式部署02JDK安装03Hadoop集群部署04ZooKeeper集群部署05Scala安装
Standalone模式部署01
Standalone模式部署即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。借鉴Spark开发模式,我们可以得到一种开发新型计算框架的一般思路:先设计出它的standalone模式,为了快速开发,起初不需要考虑服务(比如master/slave)的容错性,之后再开发相应的wrapper,将stanlone模式下的服务原封不动的部署到资源管理系统yarn或者mesos上,由资源管理系统负责服务本身的容错。目前Spark在standalone模式下是没有任何单点故障问题的,这是借助zookeeper实现的,思想类似于HBasemaster单点故障解决方案。将Sparkstandalone与MapReduce比较,会发现它们两个在架构上是完全一致的:
Standalone模式部署1.下载安装spark2.配置spark在spark官网下载tar.gz安装包,本节使用的是spark2.3.2。在下载安装包时需要对应好Hadoop的版本,本书使用的是Hadoop2.7.4安装包解压完成后需要进行相关的配置,可以在一台机器上配置好之后使用scp命令copy到其他机器上,在配置之前需要将四台虚拟机关机后做一个快照,方便后面两种模式的部署。
SparkonYARN模式部署02
SparkonYARN模式部署这是一种很有前景的部署模式。但限于YARN自身的发展,目前仅支持粗粒度模式(Coarse-grainedMode)。这是由于YARN上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生变化,不过这个已经在YARN计划中了。sparkonyarn支持两种模式:1)yarn-cluster:适用于生产环境;2)yarn-client:适用于交互、调试,希望立即看到app的输出
SparkonYARN模式部署安装包下载解压2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证9.运行实例10.任务监控
SparkHA集群部署03
SparkHA集群部署SparkStandalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:(1)基于文件系统的单点恢复(Single-NodeRecoverywithLocalFileSystem)。主要用于开发或测试环境。当spark提供目录保存sparkApplication和worker的注册信息,并将他们的恢复状态写入该目录中,这时,一旦Master发生故障,就可以通过重新启动Master进程(sbin/start-master.sh),恢复已运行的sparkApplication和worker的注册信息。(2)基于zookeeper的StandbyMasters(StandbyMasterswithZooKeeper)。用于生产模式。其基本原理是通过zookeeper来选举一个Master,其他的Master处于Standby状态。将spark集群连接到同一个ZooKeeper实例并启动多个Master,利用zookeeper提供的选举和状态保存功能,可以使一个Master被选举成活着的master,而其他Master处于Standby状态。如果现任Master死去,另一个Master会通过选举产生,并恢复到旧的Master状态,然后恢复调度。整个恢复过程可能要1-2分钟。
SparkHA集群部署下载解压安装包2.配置spark-env.sh3.重命名slaves.template文件4.配置slaves文件5.环境变量配置6.文件分发7.启动集群8.验证
感谢大家的聆听
您可能关注的文档
- Spark大数据分析 课件 1.1 大数据简介与相关技术.pptx
- Spark大数据分析 课件 1.2 Spark简介.pptx
- Spark大数据分析 课件 1.3 其他数据处理框架.pptx
- Spark大数据分析 课件 2.1 集群环境准备.pptx
- Spark大数据分析 课件 2.3 Spark运行架构与原理.pptx
- Spark大数据分析 课件 2.4 Spark Shell.pptx
- Spark大数据分析 课件 3.1 Scala简介.pptx
- Spark大数据分析 课件 3.2 Scala环境准备.pptx
- Spark大数据分析 课件 3.3 Scala基础语法.pptx
- Spark大数据分析 课件 3.4 Scala面向对象.pptx
- 【东兴证券-2025研报】东兴证券晨报.pdf
- 【东方证券-2025研报】学大教育(000526):传统高中教培稳健,职业教育打造第二增长曲线.pdf
- 【华创证券-2025研报】12月经济数据前瞻:政策效果初回顾:量升价落.pdf
- 【华西证券-2025研报】润本股份(603193):从投资角度看润本:七问七答.pdf
- 【华创证券-2025研报】华创医药投资观点、研究专题周周谈第109期全国中成药联盟集采开标.pdf
- 【南华期货-2025研报】南华商品指数日报.pdf
- 【国联证券-2025研报】地产行业2025年度投资策略:地产止跌企稳,估值修复可期.pdf
- 【冠通期货-2025研报】冠通每日交易策略.pdf
- 【华创证券-2025研报】化债区域观察系列之三:青甘宁化债效果及投资机会分析.pdf
- 【华西证券-2025研报】社服零售2025年度投资策略:景气拐点将现,破旧立新迎春来.pdf
文档评论(0)