- 1、本文档共44页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop介绍环境搭建
举例:WordCount的Map 过程 WordCount的Reduce 过程 举例:事例MapReduce过程 Hadoop优势: 可扩展。不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。 经济。它在通常可用的计算机集簇间分配数据和处理,这些集簇可以被计入数以千计的节点当中 高效。通过分配数据,Hadoop能够在存放数据的节点之间平行的处理它们,因此其处理速度非常快。 可信。Hadoop能够自动保存数据的多份副本,并且能够自动地将失败的任务重新分配 谢谢! Hadoop环境搭建 ①硬件环境 实验共使用三台PC机,一台机器用作NameNode,另两台用作DateNode。 ②软件环境 软件统一安装在虚拟机系统VMware上, Linux系统采用Ubuntu,jdk使用jdk1.6.0 版,Hadoop使用hadoop-0.20.2版本。 1.安装环境 2.准备工作 ①虚拟机VMware的安装 下载安装软件并分别在3台机器上安装。由于3台机器的某盘剩余空间都较大,统一将VMware安装在某盘上,分配磁盘空间时统一分配为10G。 ② Ubuntu的安装 新建虚拟机,加载Linux系统Ubuntu的iso镜像文件,并在VMware环境下安装Ubuntu 系统。 ③ Ubuntu简单设置 对Ubuntu进行简单的网络设置,使其接入Internet,可使用其自带的语言支持工具将其环境汉化。 ④JDK、SSH的安装 使用Ubuntu自带的“新立得”软件管理工具包,可以有哪些信誉好的足球投注网站、下载并安装JDK、SSH。 准备工作(续) ⑤Hadoop的安装 在Ubuntu中,通过网址/dyn/closer.cgi/hadoop/core下载hadoop-0.20.2.tar.gz,解压到/usr/local/hadoop文件夹。 准备工作(续) 3.配置工作 ①配置JDK环境变量 以超级用户身份打开environment文件,在其中添加两个环境变量:CLASSPATH及JAVA_HOME并设置路径值。 ②配置SSH 在每台机器上新建一个超级用户,取名均为hadoop,并建立SSH Key用来远程登录。 配置工作(续) ③配置Hadoop ⑴配置$HADOOP_HOME/conf/hadoop-env.sh,导入JAVA_HOME环境变量值。 ⑵配置$HADOOP_HOME/conf/core-site.xml,在其中指定默认文件系统名,默认系统临时目录等。 ⑶配置$HADOOP_HOME/conf/mapred-site.xml,指定tracker的默认路径端口。 配置工作(续) ④格式化、启动 使用-format命令格式化NameNode; 使用start-all.sh命令启动所有的Hadoop进程,包括:namenode,datanode, jobtracker,tasktrack 等四项进程。 通过jps命令查看进程是否启动成功。 进一步工作: 完成例子的测试工作; 熟悉Linux命令; 熟悉Hadoop工作原理,加深对MapReduce模型的理解。 熟悉HBase; 启动hadoop 进入master,打开一个控制器终端,输入命令:cd hadoop/hadoop-1.0.4/bin/,按下enter键,然后输入命令:./hadoop namenode –format,按下enter键,执行结果如果如图2.3所示,则表明初始化成功。注意:初始化只需首次启动hadoop时执行一次,以后再启动hadoop,则不需要再进行初始化。 通过浏览器验证hadoop启动是否成功,在浏览器地址栏里分别输入网址:master:50030和master:50070,如果结果如图2.5和图2.6所示,则证明hadoop是启动成功的。 云计算开发平台 ——Hadoop系统 钱能武 030130733 目录 1.Hadoop概述 2.Hadoop分布式文件系统(HDFS)简介 3.HDFS基本结构 4.HDFS的文件操作 5.HDFS的一些设计特点 6. MapReduce分布式计算 7. Hadoop优势 注:参考书籍 分布式系统及云计算概论 陆嘉恒 主编 Hadoop实战 陆嘉恒 著 1.Hadoop概述 Hadoop是一个分布式系统基础架构,是一个能够对大量 数据进行分布式处理的软件框架,由Apache基金会开发。 用户可以在不了解分布式底层细节的情况下,开发分布式程 序,充分利用集群的的威力高速运算和存储。 Hadoop框架中最核
您可能关注的文档
- GBF蜂巢芯现浇密肋楼盖施工方案内容.doc
- G P S 世界.ppt
- GC7890A基础知识培训.doc
- GDGL25飞行仪表.ppt
- GC PowerStation使用技巧.ppt
- GDM查房讲稿.ppt
- GDOU 广东海洋大学 数字电路试题集.doc
- GC-380V20A智能蓄电池放电屏使用说明书.doc
- GB50204-2011预应力分项工程详解.pptx
- GDMCC LTE无线设备维护交流_NSN.pptx
- 网约车项目商业计划书.docx
- DeepSeek应用系列研究之一,DeepSeek在投资研究工作中的应用初探.docx
- 医疗护理知识问答:环境消毒、废物处理及搬运相关题目 .docx
- 2025年第一季度大类资产配置:A股具备配置价值,关注科技和扩内需方向.docx
- 打造智慧物流中心,李宁新一轮的增肌之路(二)2025.docx
- 新能源汽车电池行业创业计划书研发高性能电池技术提升电动汽车续航里.docx
- G智慧物流应用场景与解决方案白皮书.docx
- 硕腾猫白血病艾滋病二合一说明书.docx
- 中国快闪存储器行业市场运行态势及发展前景研判报告.docx
- AI与医药/医疗抬升风险偏好,关注弹性及底部反转.docx
最近下载
- 《中国民航发展史》课件——1-2 近代中国航空的开展.pptx VIP
- 第2节_电生磁-教学课件.pptx VIP
- 上访事件应急处置方案.docx VIP
- 《中国民航发展史》课件——第六章 中国民航体制改革的继续深化与.pptx VIP
- 《核电子学》习题解答.docx
- 《中国民航发展史》课件——第三章 新中国民用航空事业的创立与初步发展.pptx VIP
- 《中国民航发展史》课件——第二章 第二次世界大战后快速崛起的中国民用航空.pptx VIP
- 心流体验之如何进入最佳心理状态的课件.pptx
- 牙科椅的使用注意事项和维护保养.pptx
- 《中国民航发展史》课件——第一章 中国民用航空的萌芽与初步发展.pptx VIP
文档评论(0)