- 1、本文档共140页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第6章Spark大数据分析综合案例Spark大数据分析与实战
01Hadoop+Spark分布式集群环境0203Spark离线数据处理实例目录CONTENTS04Spark实时数据处理实例05Spark数据分析案例部署CentOS7+JDK8虚拟机安装
01CentOS7+JDK8虚拟机安装CentOS7+JDK8虚拟机安装
CentOS7+JDK8虚拟机安装这里准备直接使用已安装好的CentOS7操作系统虚拟机文件,将其复制到本地,解压缩后会得到一个虚拟机的文件夹。为节省篇幅,假定已经从这个现有的虚拟机中克隆出CentOS7_x64-vm01、CentOS7_x64-vm02、CentOS7_x64-vm03这3台虚拟机,将它们启动起来,然后使用root账户和密码(root)登录进去
CentOS7+JDK8虚拟机安装接下来分别配置3台虚拟机的IP地址,避免自动分配地址发生IP不固定的问题。由于不同计算机上的VMware管理的虚拟机IP地址各不相同,因此可以选择VMware主菜单中的“编辑”→“虚拟网络编辑器”命令查看IP地址的配置信息
CentOS7+JDK8虚拟机安装当VMware安装在Windows操作系统中时,会自动在Windows操作系统中创建名为VMnet1和VMnet8的两个虚拟网卡,其中VMnet8虚拟网卡的地址可以在命令行提示符窗体中使用ipconfig命令进行查看
CentOS7+JDK8虚拟机安装根据VMware获取的网络配置信息,下面将3台CentOS7虚拟机的主机名、IP地址等内容进行规划(请根据自己机器的实际情况设置,后续用到的虚拟机IP地址也要与此对应)
CentOS7+JDK8虚拟机安装回到VMware运行的CentOS7_x64-vm01虚拟机,将IP地址修改为所规划的网络配置内容。当CentOS7_x64-vm01虚拟机的IP地址信息修改完毕后,需要通过同样的方法将另外两台正在运行的虚拟机的IP地址按照规划的内容进行配置,并确保可以正常工作
CentOS7+JDK8虚拟机安装继续在CentOS7_x64-vm01虚拟机中修改主机名,并在/etc/hosts文件中增加3台虚拟机的主机名与IP地址之间的映射关系然后,通过同样的方法,将另外两台正在运行的虚拟机的主机名和/etc/hosts文件进行相同的修改
CentOS7+JDK8虚拟机安装分别在每台虚拟机上执行3条ping命令,以测试它们各自的IP地址和主机名配置是否成功现在,接着配置3台虚拟机之间相互的免密登录功能,分别在这3台虚拟机上执行以下命令
CentOS7+JDK8虚拟机安装准备工作完毕(主要是上面的IP地址配置、主机名配置和免密登录设置,如果不存在任何问题),下面就可以在虚拟机上安装JDK了在/etc/profile目录中配置JDK环境变量,并通过java命令测试JDK环境变量是否正确
CentOS7+JDK8虚拟机安装当JDK配置完毕且一切正常后,就可以把当前vm01虚拟机上的JDK软件包和配置文件分发到vm02、vm03这两台虚拟机上然后分别在vm02、vm03这两台虚拟机上执行以下全部命令,测试一下JDK配置的正确性至此,3台虚拟机的基础环境就已经全部准备完毕,接下来的Hadoop+Spark分布式集群环境的配置,就是在这3台基础的CentOS7+JDK8虚拟机上完成的
Hadoop+SparkStandalone分布式集群环境搭建Hadoop+SparkStandalone分布式集群,是指通过SparkStandalone来管理整个集群资源并使用Hadoop的部分功能(主要是HDFS存储),这种方式不需要YARN集群管理器,配置步骤都是在vm01虚拟机上操作,当vm01虚拟机全部配置完毕后,再将其分发到vm02、vm03虚拟机上即可在VMware中将CentOS7_x64-vm01、CentOS7_x64-vm02、CentOS7_x64-vm03这3?台虚拟机分别克隆出一台链接方式的虚拟机(或者完整克隆也可以),并将它们启动
Hadoop+SparkStandalone分布式集群环境搭建这3台克隆出来的虚拟机在SparkStandalone集群中的功能角色规划如下下面先将Hadoop和Spark软件包对应的两个安装文件hadoop-2.6.5.tar.gz、spark-2.4.8-bin-without-hadoop.tgz上传到vm01虚拟机的当前主目录(即/root)中,并分别将这两个压缩包解压缩到/usr/local目录
Hadoop+SparkStandalone分布式集群环境搭建在vm01虚拟机上修改/etc/profile文件,在其中添加有关Hadoop和Spark的环境变量设置
Hadoop+
您可能关注的文档
- Spark大数据分析与实战(Python+PySpark)课件 第1章 Spark大数据平台与环境搭建.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第2章 SparkRDD离线数据计算.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第3章 SparkSQL离线数据处理.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第4章 SparkStreaming流数据计算.pptx
- Spark大数据分析与实战(Python+PySpark)课件 第5章 Spark编程进阶.pptx
- Spark大数据分析与实战(Python+PySpark)课件全套 第1--6章 Spark大数据平台与环境搭建---- Spark大数据分析综合案例.pptx
- 2024江西江铃专用车辆厂有限公司招聘60人笔试参考题库附带答案详解 .docx
- 2024河南安建建设工程管理有限责任公司招聘笔试参考题库附带答案详解 .docx
- 2024年安徽黄山阳光电力维修工程有限公司招聘29人(第一批次)笔试参考题库附带答案详解 .docx
- 2024年度国铁融资租赁有限公司第一批公开招聘14人笔试参考题库附带答案详解 .docx
- 2024年陕西咸阳亨通电力(集团)有限公司供电服务业务部直聘用工招聘145人笔试参考题库附带答案详解 .docx
- 2024年中建四局土木工程有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年四川雅茶贸易有限公司公开招聘和考察聘用人员3人笔试参考题库附带答案详解 .docx
- 2024年中国烟草总公司辽宁省公司公开招聘拟录用人员(166人)笔试参考题库附带答案详解 .docx
- 2024江苏连云港中诚物业管理有限公司招聘工作人员1人笔试参考题库附带答案详解 .docx
- [毕节]2025年贵州毕节市引进人才649人笔试历年参考题库附带答案详解.docx
- 2024年度中国东航技术应用研发中心有限公司校园招聘笔试参考题库附带答案详解 .docx
- 2024年福建省厦门盐业有限责任公司春季人才招聘1人笔试参考题库附带答案详解 .docx
- 2024年山东省环保发展集团绿能有限公司职业经理人招聘2人笔试参考题库附带答案详解 .docx
- 2024年安徽滁州郊源阳光电力维修工程有限责任公司招聘41人(第一批次)笔试参考题库附带答案详解 .docx
最近下载
- 2024年青岛职业技术学院高职单招语文历年参考题库含答案解析.docx
- 《多波段天气雷达协同观测规范》.docx VIP
- 2025年烟台汽车工程职业学院单招综合素质考试题库及答案解析.docx
- 主题3 人与自我—自我认识与提升课件+2025年中考英语人教版一轮专题复习.pptx VIP
- 学校种植园方案设计.ppt
- 拉完整版本.封丹寓言.pptx VIP
- 第三单元名著导读《经典常谈》课件++2023-2024学年统编版语文八年级下册.pptx VIP
- 人工智能与智能医学影像分析.pptx VIP
- 全过程造价咨询服务实施方案设计.docx
- 宁夏医科大学2023-2024学年第2学期《生物化学》期末考试试卷(A卷)附参考答案.docx
文档评论(0)