2-Hadoop管理解读.doc

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2-Hadoop管理解读

Hadoop管理 一、实验目的 1、熟悉Hadoop文件结构。 2、了解Hadoop集群运行状态。 3、掌握Hadoop集群管理监控管理工具。 4、掌握Hadoop日常监控维护管理的相关方法。 二、实验原理 Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )和N个数据结点 ( DataNode )组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文件,查看文件内容等。但其底层实现上是把文件切割成 Block,然后这些 Block 分散地存储于不同的 DataNode 上,每个 Block 还可以复制数份存储于不同的 DataNode 上,达到容错容灾之目的。NameNode 则是整个 HDFS 的核心,它通过维护一些数据结构,记录了每一个文件被切割成了多少个 Block,这些 Block 可以从哪些 DataNode 中获得,各个 DataNode 的状态等重要信息。 MapReduce 是 Google 公司的核心计算模型,它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数,Map 和 Reduce, 这是一个令人惊讶的简单却又威力巨大的模型。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。集群中的服务器各尽其责,通力合作,提供整个文件系统的服务MapReduce计算模型观点分析,Map/Reduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说计算节点和存储节点在一起。这种配置允许在那些已经存好数据的节点上高效的调度任务,这样可以使整个集群的网络宽带得到非常高效的利用。另外,在Hadoop中,用于执行MapReduce任务的机器有两个角色:JobTracker,TaskTracker。JobTracker(一个集群中只能有一台)是用于管理和调度工作的,TaskTracker是用于执行工作的。 以上对Hadoop体系框架和相应技术做了相应分析,并从HDFS、MapReduce的角度分析了集群中的角色扮演。对于管理Hadoop集群,维护集群的高效稳定,这些理论既是我们实验的理论基础,也是实验研究Hadoop深层次系统知识体系结构的意义所在。 三、实验内容 本实验主要是从以下四个部分,进行Hadoop管理实验。 1、HDFS目录结构认知 2、HDFS命令工具管理 3、MapReduces作业管理 4、Hadoop集群的维护 5、Ganglia集群监控工具的安装与使用 四、实验步骤 本实验以unbutu14.04,hadoop2.20集群为前提进行实验。 Hadoop集群ip及角色分配如下 17 master (namenode) 00 slaver1 (datanode) 01 slaver2 (datanode) 第一部分:HDFS目录结构 ? 无论是做为开发者还是管理员了解HDFS目录结构都是很重要的一件事情。 ? 它们可以帮助我们诊断问题管理HDFS数据 ? Namenode的目录结构: ${.dir}/current /VERSION /edits /fsimage 注: .dir是hdfs-site.xml里配置的目录列表。 ? 通过设置Sencondary NameNode解决edits log变大问题 ? Sencondary Namenode的目录结构: ${fs.checkpoint.dir}/current /VERSION /edits /fsimage /VERSION ? Datanode 的目录结构: 对比以上效果图,对HDFS文件介绍如下: namespaceID是文件系统的唯一标示符。在文件系统第一次被格式化时便会创建,这个标示符也要求各DataNode节点和NameNode节点保持一致。 cTime属性表记录NameNode创建的时间,对于新格式化的存储空间,虽然这里的cTime的属性为0,但是只要文件系统被更新,就会得到一个新的时间戳。 storageType用于指出此

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档