网站大量收购独家精品文档,联系QQ:2885784924

Spark大数据分析与实战(Python+PySpark)课件 第6章 Spark大数据分析综合案例.pptx

Spark大数据分析与实战(Python+PySpark)课件 第6章 Spark大数据分析综合案例.pptx

  1. 1、本文档共140页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第6章Spark大数据分析综合案例Spark大数据分析与实战

01Hadoop+Spark分布式集群环境0203Spark离线数据处理实例目录CONTENTS04Spark实时数据处理实例05Spark数据分析案例部署CentOS7+JDK8虚拟机安装

01CentOS7+JDK8虚拟机安装CentOS7+JDK8虚拟机安装

CentOS7+JDK8虚拟机安装这里准备直接使用已安装好的CentOS7操作系统虚拟机文件,将其复制到本地,解压缩后会得到一个虚拟机的文件夹。为节省篇幅,假定已经从这个现有的虚拟机中克隆出CentOS7_x64-vm01、CentOS7_x64-vm02、CentOS7_x64-vm03这3台虚拟机,将它们启动起来,然后使用root账户和密码(root)登录进去

CentOS7+JDK8虚拟机安装接下来分别配置3台虚拟机的IP地址,避免自动分配地址发生IP不固定的问题。由于不同计算机上的VMware管理的虚拟机IP地址各不相同,因此可以选择VMware主菜单中的“编辑”→“虚拟网络编辑器”命令查看IP地址的配置信息

CentOS7+JDK8虚拟机安装当VMware安装在Windows操作系统中时,会自动在Windows操作系统中创建名为VMnet1和VMnet8的两个虚拟网卡,其中VMnet8虚拟网卡的地址可以在命令行提示符窗体中使用ipconfig命令进行查看

CentOS7+JDK8虚拟机安装根据VMware获取的网络配置信息,下面将3台CentOS7虚拟机的主机名、IP地址等内容进行规划(请根据自己机器的实际情况设置,后续用到的虚拟机IP地址也要与此对应)

CentOS7+JDK8虚拟机安装回到VMware运行的CentOS7_x64-vm01虚拟机,将IP地址修改为所规划的网络配置内容。当CentOS7_x64-vm01虚拟机的IP地址信息修改完毕后,需要通过同样的方法将另外两台正在运行的虚拟机的IP地址按照规划的内容进行配置,并确保可以正常工作

CentOS7+JDK8虚拟机安装继续在CentOS7_x64-vm01虚拟机中修改主机名,并在/etc/hosts文件中增加3台虚拟机的主机名与IP地址之间的映射关系然后,通过同样的方法,将另外两台正在运行的虚拟机的主机名和/etc/hosts文件进行相同的修改

CentOS7+JDK8虚拟机安装分别在每台虚拟机上执行3条ping命令,以测试它们各自的IP地址和主机名配置是否成功现在,接着配置3台虚拟机之间相互的免密登录功能,分别在这3台虚拟机上执行以下命令

CentOS7+JDK8虚拟机安装准备工作完毕(主要是上面的IP地址配置、主机名配置和免密登录设置,如果不存在任何问题),下面就可以在虚拟机上安装JDK了在/etc/profile目录中配置JDK环境变量,并通过java命令测试JDK环境变量是否正确

CentOS7+JDK8虚拟机安装当JDK配置完毕且一切正常后,就可以把当前vm01虚拟机上的JDK软件包和配置文件分发到vm02、vm03这两台虚拟机上然后分别在vm02、vm03这两台虚拟机上执行以下全部命令,测试一下JDK配置的正确性至此,3台虚拟机的基础环境就已经全部准备完毕,接下来的Hadoop+Spark分布式集群环境的配置,就是在这3台基础的CentOS7+JDK8虚拟机上完成的

Hadoop+SparkStandalone分布式集群环境搭建Hadoop+SparkStandalone分布式集群,是指通过SparkStandalone来管理整个集群资源并使用Hadoop的部分功能(主要是HDFS存储),这种方式不需要YARN集群管理器,配置步骤都是在vm01虚拟机上操作,当vm01虚拟机全部配置完毕后,再将其分发到vm02、vm03虚拟机上即可在VMware中将CentOS7_x64-vm01、CentOS7_x64-vm02、CentOS7_x64-vm03这3?台虚拟机分别克隆出一台链接方式的虚拟机(或者完整克隆也可以),并将它们启动

Hadoop+SparkStandalone分布式集群环境搭建这3台克隆出来的虚拟机在SparkStandalone集群中的功能角色规划如下下面先将Hadoop和Spark软件包对应的两个安装文件hadoop-2.6.5.tar.gz、spark-2.4.8-bin-without-hadoop.tgz上传到vm01虚拟机的当前主目录(即/root)中,并分别将这两个压缩包解压缩到/usr/local目录

Hadoop+SparkStandalone分布式集群环境搭建在vm01虚拟机上修改/etc/profile文件,在其中添加有关Hadoop和Spark的环境变量设置

Hadoop+

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档