网站大量收购独家精品文档,联系QQ:2885784924

Hadoop介绍+环境搭建.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop介绍环境搭建

举例:WordCount的Map 过程 WordCount的Reduce 过程 举例:事例MapReduce过程 Hadoop优势: 可扩展。不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。 经济。它在通常可用的计算机集簇间分配数据和处理,这些集簇可以被计入数以千计的节点当中 高效。通过分配数据,Hadoop能够在存放数据的节点之间平行的处理它们,因此其处理速度非常快。 可信。Hadoop能够自动保存数据的多份副本,并且能够自动地将失败的任务重新分配 谢谢! Hadoop环境搭建 ①硬件环境 实验共使用三台PC机,一台机器用作NameNode,另两台用作DateNode。 ②软件环境 软件统一安装在虚拟机系统VMware上, Linux系统采用Ubuntu,jdk使用jdk1.6.0 版,Hadoop使用hadoop-0.20.2版本。 1.安装环境 2.准备工作 ①虚拟机VMware的安装 下载安装软件并分别在3台机器上安装。由于3台机器的某盘剩余空间都较大,统一将VMware安装在某盘上,分配磁盘空间时统一分配为10G。 ② Ubuntu的安装 新建虚拟机,加载Linux系统Ubuntu的iso镜像文件,并在VMware环境下安装Ubuntu 系统。 ③ Ubuntu简单设置 对Ubuntu进行简单的网络设置,使其接入Internet,可使用其自带的语言支持工具将其环境汉化。 ④JDK、SSH的安装 使用Ubuntu自带的“新立得”软件管理工具包,可以有哪些信誉好的足球投注网站、下载并安装JDK、SSH。 准备工作(续) ⑤Hadoop的安装 在Ubuntu中,通过网址/dyn/closer.cgi/hadoop/core下载hadoop-0.20.2.tar.gz,解压到/usr/local/hadoop文件夹。 准备工作(续) 3.配置工作 ①配置JDK环境变量 以超级用户身份打开environment文件,在其中添加两个环境变量:CLASSPATH及JAVA_HOME并设置路径值。 ②配置SSH 在每台机器上新建一个超级用户,取名均为hadoop,并建立SSH Key用来远程登录。 配置工作(续) ③配置Hadoop ⑴配置$HADOOP_HOME/conf/hadoop-env.sh,导入JAVA_HOME环境变量值。 ⑵配置$HADOOP_HOME/conf/core-site.xml,在其中指定默认文件系统名,默认系统临时目录等。 ⑶配置$HADOOP_HOME/conf/mapred-site.xml,指定tracker的默认路径端口。 配置工作(续) ④格式化、启动 使用-format命令格式化NameNode; 使用start-all.sh命令启动所有的Hadoop进程,包括:namenode,datanode, jobtracker,tasktrack 等四项进程。 通过jps命令查看进程是否启动成功。 进一步工作: 完成例子的测试工作; 熟悉Linux命令; 熟悉Hadoop工作原理,加深对MapReduce模型的理解。 熟悉HBase; 启动hadoop 进入master,打开一个控制器终端,输入命令:cd hadoop/hadoop-1.0.4/bin/,按下enter键,然后输入命令:./hadoop namenode –format,按下enter键,执行结果如果如图2.3所示,则表明初始化成功。注意:初始化只需首次启动hadoop时执行一次,以后再启动hadoop,则不需要再进行初始化。 通过浏览器验证hadoop启动是否成功,在浏览器地址栏里分别输入网址:master:50030和master:50070,如果结果如图2.5和图2.6所示,则证明hadoop是启动成功的。 云计算开发平台 ——Hadoop系统 钱能武 030130733 目录 1.Hadoop概述 2.Hadoop分布式文件系统(HDFS)简介 3.HDFS基本结构 4.HDFS的文件操作 5.HDFS的一些设计特点 6. MapReduce分布式计算 7. Hadoop优势 注:参考书籍 分布式系统及云计算概论 陆嘉恒 主编 Hadoop实战 陆嘉恒 著 1.Hadoop概述 Hadoop是一个分布式系统基础架构,是一个能够对大量 数据进行分布式处理的软件框架,由Apache基金会开发。 用户可以在不了解分布式底层细节的情况下,开发分布式程 序,充分利用集群的的威力高速运算和存储。 Hadoop框架中最核

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档