- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 大数据技术概Hadoop平台的安装与配置;2.1 安装准备;实验用的Hadoop硬件规格要低得多。笔者建议使用VMware的虚拟主机来搭建Hadoop的实验环境,用以下规格的笔记本电脑或台式主机即可满足实验需要。
(1) 处理器:1颗4核的Intel Core i7(或更高)的CPU;
(2) 内存:8GB(或更高)的DDR 3内存;
(3) 硬盘:1个120GB(或更大)的SSD硬盘和1个500GB(或更大)SATA硬盘;
(4) 网卡:千兆的以太网适配器。
;1. 创建Linux虚拟主机
2. 安装Ubuntu操作系统;1. 下载JDK 1.8
2.解压并安装JDK
3. 添加JDK的环境变量
4. 配置默认JDK版本
5. 测试JDK
;2.2 Hadoop的集群安装;2. Pseudo-Distributed Mode(即伪分布模式):在该模式下,Hadoop的守护进程运行在本地机器上。该模式模拟一个分布式集群,数据存储于分布式文件系统HDFS,而不保存于Linux的本地文件系统。同时,通过创建不同的JVM实例来实现程序的分布式运行。???种模式主要是考虑用户没有足够的机器去部署一台完全分布式的环境。
3. Fully-Distributed Mode(即完全分布模式):在该模式下,Hadoop在集群中的每个节点上启动一个守护进程,系统依靠HDFS实现数据的分布式存储,MapReduce程序中的Map任务和Reduce任务通过调度机制并发地运行于不同的节点之中,实现数据的就近处理。
;【注意】Hadoop并不严格区分伪分布模式和完全分布模式。在Hadoop环境中,所有服务器节点仅划分为两种不同角色:master(主节点,1个)和slaves(从节点,多个)。因此,伪分布模式是完全分布模式的特例,只是将主节点和从节点合二为一罢了。
;2.2.1 Hadoop的运行模式;
详细配置过程见教材第2.2.2小节。
1. 网络配置
2. 修改主机名
3. 修改主机IP解析表
4. 配置时钟同步服务
5. 关闭防火墙
;
详细配置过程见教材第2.2.3小节。
1. 安装SSH服务
2. 检查SSH服务是否启动
3. 生成RSA密钥(包括私钥和公钥)
4. 将公钥文件复制为Hadoop能识别的免密码登录的授权文件。
5. 将主节点上的包含公钥的授权文件复制到各从节点
6. 验证SSH
;详细配置过程见教材第2.2.4小节。
1. 下载Hadoop2.7.2?
2. 解压安装
3. 为运行Hadoop创建目录
4. 设置环境变量
;详细配置过程见教材第2.2.5小节。
1. 配??Hadoop守护进程的运行环境
2. 配置Hadoop守护进程的运行参数
3. 设置从节点
4. 配置Hadoop的日志
;详细配置过程见教材第2.2.6小节。
1.传送Hadoop到各从节点
2. 格式化文件系统
3. 启动Hadoop集群
4. 查看master工作状况
5. 查看slave工作状况
6. 用Web UI查看Hadoop集群的工作状态
7. 关闭Hadoop集群
;2.3 Hadoop开发平台的安装;详细安装过程见教材2.3小节。
1.Eclipse的安装
2.下载hadoop-eclipse-plugin插件
3.在Eclipse中配置Hadoop
文档评论(0)