Spark大数据分析与实战（Python+PySpark）课件第６章 Spark大数据分析综合案例.pptx

下载文档

0
0
约1.91万字
约 140页
2025-02-20 发布于山东
举报
版权申诉
保障服务

Spark大数据分析与实战（Python+PySpark）课件第６章 Spark大数据分析综合案例.pptx

1、本文档共140页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第６章Spark大数据分析综合案例Spark大数据分析与实战

01Hadoop+Spark分布式集群环境0203Spark离线数据处理实例目录CONTENTS04Spark实时数据处理实例05Spark数据分析案例部署CentOS7+JDK8虚拟机安装

01CentOS7+JDK8虚拟机安装CentOS7+JDK8虚拟机安装

CentOS7+JDK8虚拟机安装这里准备直接使用已安装好的CentOS7操作系统虚拟机文件，将其复制到本地，解压缩后会得到一个虚拟机的文件夹。为节省篇幅，假定已经从这个现有的虚拟机中克隆出CentOS7_x64-vm01、CentOS7_x64-vm02、CentOS7_x64-vm03这3台虚拟机，将它们启动起来，然后使用root账户和密码（root）登录进去

CentOS7+JDK8虚拟机安装接下来分别配置3台虚拟机的IP地址，避免自动分配地址发生IP不固定的问题。由于不同计算机上的VMware管理的虚拟机IP地址各不相同，因此可以选择VMware主菜单中的“编辑”→“虚拟网络编辑器”命令查看IP地址的配置信息

CentOS7+JDK8虚拟机安装当VMware安装在Windows操作系统中时，会自动在Windows操作系统中创建名为VMnet1和VMnet8的两个虚拟网卡，其中VMnet8虚拟网卡的地址可以在命令行提示符窗体中使用ipconfig命令进行查看

CentOS7+JDK8虚拟机安装根据VMware获取的网络配置信息，下面将3台CentOS7虚拟机的主机名、IP地址等内容进行规划（请根据自己机器的实际情况设置，后续用到的虚拟机IP地址也要与此对应）

CentOS7+JDK8虚拟机安装回到VMware运行的CentOS7_x64-vm01虚拟机，将IP地址修改为所规划的网络配置内容。当CentOS7_x64-vm01虚拟机的IP地址信息修改完毕后，需要通过同样的方法将另外两台正在运行的虚拟机的IP地址按照规划的内容进行配置，并确保可以正常工作

CentOS7+JDK8虚拟机安装继续在CentOS7_x64-vm01虚拟机中修改主机名，并在/etc/hosts文件中增加3台虚拟机的主机名与IP地址之间的映射关系然后，通过同样的方法，将另外两台正在运行的虚拟机的主机名和/etc/hosts文件进行相同的修改

CentOS7+JDK8虚拟机安装分别在每台虚拟机上执行3条ping命令，以测试它们各自的IP地址和主机名配置是否成功现在，接着配置3台虚拟机之间相互的免密登录功能，分别在这3台虚拟机上执行以下命令

CentOS7+JDK8虚拟机安装准备工作完毕（主要是上面的IP地址配置、主机名配置和免密登录设置，如果不存在任何问题），下面就可以在虚拟机上安装JDK了在/etc/profile目录中配置JDK环境变量，并通过java命令测试JDK环境变量是否正确

CentOS7+JDK8虚拟机安装当JDK配置完毕且一切正常后，就可以把当前vm01虚拟机上的JDK软件包和配置文件分发到vm02、vm03这两台虚拟机上然后分别在vm02、vm03这两台虚拟机上执行以下全部命令，测试一下JDK配置的正确性至此，3台虚拟机的基础环境就已经全部准备完毕，接下来的Hadoop+Spark分布式集群环境的配置，就是在这3台基础的CentOS7+JDK8虚拟机上完成的

Hadoop+SparkStandalone分布式集群环境搭建Hadoop+SparkStandalone分布式集群，是指通过SparkStandalone来管理整个集群资源并使用Hadoop的部分功能（主要是HDFS存储），这种方式不需要YARN集群管理器，配置步骤都是在vm01虚拟机上操作，当vm01虚拟机全部配置完毕后，再将其分发到vm02、vm03虚拟机上即可在VMware中将CentOS7_x64-vm01、CentOS7_x64-vm02、CentOS7_x64-vm03这3?台虚拟机分别克隆出一台链接方式的虚拟机（或者完整克隆也可以），并将它们启动

Hadoop+SparkStandalone分布式集群环境搭建这3台克隆出来的虚拟机在SparkStandalone集群中的功能角色规划如下下面先将Hadoop和Spark软件包对应的两个安装文件hadoop-2.6.5.tar.gz、spark-2.4.8-bin-without-hadoop.tgz上传到vm01虚拟机的当前主目录（即/root）中，并分别将这两个压缩包解压缩到/usr/local目录

Hadoop+SparkStandalone分布式集群环境搭建在vm01虚拟机上修改/etc/profile文件，在其中添加有关Hadoop和Spark的环境变量设置

Hadoop+

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Spark大数据分析与实战（Python+PySpark）课件第６章 Spark大数据分析综合案例.pptx