第3章Hadoop分布式文件系统.pptxVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第3章Hadoop分布式文件系统

目录1认识HDFSHDFS相关概念HDFS体系结构HDFS运行原理及保障234

3.1.1认识HDFS1、分布式文件系统相对于传统的本地文件系统而言,分布式文件系统(DistributedFileSystem)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统允许将一个文件通过网络在多台主机上以多副本的方式进行存储,实际上就是通过网络来访问文件,但用户和程序看起来跟访问本地的磁盘一样。目前,应用广泛的分布式文件系统主要包括GFS和HDFS,HDFS是GFS的开源实现。

3.1.1认识HDFS2、HDFS简介HDFS是Hadoop分布式文件系统(HadoopDistributedFileSystem)的缩写,是ApacheHadoop的核心子项目。HDFS支持海量数据的存储,是分布式计算中数据存储和管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。

3.1.1认识HDFS3、HDFS的优缺点优点:(1)支持超大文件的处理(2)支持流式的访问数据(3)可构建在廉价机器上

3.1.1认识HDFS3、HDFS的优缺点缺点:(1)不适合低延时数据访问(2)无法高效存储大量小文件(3)不支持多用户并发写入和任意修改文件

3.1.2HDFS相关概念1、数据块(Block)传统的文件系统中,为提高磁盘读写效率,通常不是以字节为单位,而是以数据块为单位。HDFS同样采用了数据块的概念,最基本的存储单位即是数据块,Hadoop3.0版本默认数据块的大小是128M(有些旧版本为64M)。

3.1.2HDFS相关概念2、名称节点(Namenode)在HDFS中,名称节点主要负责管理分布式文件系统的命名空间,它将所有的文件和文件夹的元数据保存在一个文件系统树中。Namenode是整个文件系统的管理节点,维护着整个文件系统的文件目录树,元数据信息和每个文件对应的数据块列表,并接收用户的操作请求。

3.1.2HDFS相关概念3、数据节点(Datanode)在HDFS中,数据节点是工作节点,负责数据的真正存储和读取,会根据Namenode的调度来进行数据的存储和检索,并且定期向Namenode发送自己所存储的块的列表。所有数据节点的数据保存在各自节点的本地Linux文件系统中。

3.1.2HDFS相关概念4、第二名称节点(SecondaryNamenode)SecondaryNamenode并不是Namenode节点出现问题时的备用节点,HDFS也并不支持把系统直接切换到SecondaryNamenode。NameNode元数据信息存储在FsImage中,NameNode每次重启后会把FsImage读取到内存中,在运行过程中为了防止数据丢失,NameNode的操作会被不断的写入本地EditLog文件中。

3.1.3HDFS体系结构HDFS采用了主从(Master/Slave)结构,如图3-1所示。一个HDFS集群是由一个名称节点(NameNode)和多个数据节点(DataNode)组成,通常配置在不同的机器上。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。而数据节点,通常是一个节点一台机器,是分布式文件系统HDFS的工作节点,负责对应节点数据的存储和读取,会根据客户端或者是名字节点的调度来进行数据的存储和检索。

3.1.3HDFS体系结构

3.1.4HDFS运行原理及保障一、HDFS读写流程1、HDFS读数据流程客户端通过连续调用open()、read()、close()读取数据,具体执行过程如下图3-2所示:

3.1.4HDFS运行原理及保障

3.1.4HDFS运行原理及保障一、HDFS读写流程(1)客户端发送请求,调用DistributedFileSystem的create方法创建文件。调用create方法后,DistributedFileSystem会创建FSDataOutputStream输出流。(2)DistributedFileSystem通过RPC远程调用Namenode,在文件系统的命名空间中创建一个新文件。此时,Namenode会做一系列的检查,比如文件是否已经存在、客户端是否拥有创建文件权限等。若通过检查,Namenode会构造一个新文件,并添加相关文件信息。

3.1.4HDFS运行原理及保障一、HDFS读写流程(3)客户端调用FSDataOutputStream的write方法将数据写到一个内部队列中。如果数据副本数量是3,则将队列中的

文档评论(0)

180****1080 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档