网站大量收购独家精品文档,联系QQ:2885784924

《HADOOP系统架构分析综述》3000字.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

HADOOP系统架构分析综述

目录

TOC\o1-2\h\u2171HADOOP系统架构分析综述 1

16461.1分布式文件系统 2

25230(1)管理节点 2

7346(2)数据节点 3

20843(3)数据块 3

240031.2MapReduce分布式计算 5

320991.3HBase数据库 6

Hadoop[53]是Apache旗下的一个开源分布式软件计算系统,该系统包括很多子系统,如图2-1所示。

图2-1Hadoop系统架构

Fig.2-1HadoopSystemArchitecture

Hadoop系统框架的核心由三部分组成,分别为分布式文件系统(HadoopDistributedFileSystem,HDFS)、分布式计算模型MapReduce、列式存储库HBase构成。随着大数据时代的到来,目前Hadoop凭借着运行速度快、不需要高昂设备、能够对海量数据进行存储和计算等优势已经应用在多个领域,许多网站都依靠Hadoop框架进行后台存储和处理,如数据挖掘、网页索引等。Hadoop系统具备以下特点:

(1)Hadoop系统能够进行PB级别的海量数据存储和离线处理,当存在数据量较大、计算复杂的情况时,借助Hadoop良好的伸缩性,可以通过增加节点的方式来进行扩容;

(2)Hadoop能够部署在由大量普通的PC机组成的集群上,当集群性能不能满足快速计算的需求时,可以通过拓展服务器数量的方式加快数据的处理速度;

(3)Hadoop系统可以将数据切分为多个数据块,并将数据块分配到节点上,然后在各个节点进行数据分析和处理,这大大加快了处理数据的速度;

(4)Hadoop系统中的分布式文件存储系统能够将数据生成多个副本并分配到节点上,副本数目可以自行设置,系统默认值为3,在处理数据出现故障时也能保证数据不丢失,调试之后能够重新进行处理任务,这种容错机制极大提升了系统的可靠性。

1.1分布式文件系统

HDFS[54]是一种可以在廉价服务器件上运行的分布式文件系统,但是拥有良好的容错机制和数据访问性能。在分布式计算任务中,HDFS可以通过流式数据读写模式为使用者提供稳定的海量数据的存储和管理服务。HDFS的研究人员认为服务器硬件出现错误是一种很常见的现象,为了保障系统数据的不丢失,HDFS具有数据错误检测、备份容错和数据自动恢复等功能是非常有必要的。HDFS集群是利用主节点(Master)/从节点(Slave)的框架来存储数据的,包括管理节点NameNode和数据节点DataNode,由于Hadoop的特殊性和可靠性,管理节点只能有一个,而数据节点可以根据集群的规模存在若干个,HDFS的体系框架如图2-2所示。

图2-2HDFS的体系架构

Fig.2-2ArchitectureofHDFS

关于分布式文件系统HDFS各个组件描述如下:

(1)管理节点

在HDFS中,管理节点NameNode的数目只能存在一个,这种设计模式简化了系统架构,它的作用是存储HDFS中的元数据且并不参与系统计算,维护着文件系统内所有的NameSpace和编辑日志文件,在集群启动后负责管理集群中数据处理任务的执行信息调度并处理客户端发出的读写请求,因此数据并不会通过管理节点进行处理,降低了管理节点的负载,从而更加稳定的进行任务调度。

(2)数据节点

在HDFS中,DataNode的数目可以根据实际情况搭建若干个,作为任务真正的执行节点,为了保障系统的正常运行,文件系统的实际文件数据会被存储在这里并在需要时进行检索。DataNode会通过周期性心跳信号向管理节点将自身存储的块列表信息和自身工作状态进行发送,当数据节点获取到要复制的数据块列表信息后根据存放副本的原则完成流水线复制。

(3)数据块

在HDFS中支持大文件存储和处理,应用的数据处理模式是一次写入多次读取。存储在HDFS中所有的数据文件会被split成数据块,数据块是HDFS进行数据处理操作的最小单元,hadoop2.x默认每个数据块大小是128MB。为了提高容错性和可靠性,每个数据块都会尽可能的存放在不同的数据节点上。在HDFS在读操作时,HDFS读取文件[55]的原理如图2-3所示。

图2-3HDFS读取文件过程

Fig.2-3ReadFileProcessofHDFS

(1)HDFSClient通过调用FileSystem中的open()方法向NameNode发起调用请求并获取数据信息;

(2)NameNode响应Client的请求,经过元数据信息查询并返回文件的所有数据块信息和所在节点的地址信息;

(3)获取到的返回信息保存到FSDataInputStream中并返回给Client用来数

文档评论(0)

02127123006 + 关注
实名认证
内容提供者

关注有哪些信誉好的足球投注网站

1亿VIP精品文档

相关文档