- 1、本文档共93页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Hadoop大数据项目开发——HDFS简介
目录content0201HDFS简介HDFS实现目标和自身局限性
HDFS简介HDFS是Hadoop两大核心组件之一。分布式存储:HDFS分布式处理:MapReduceHDFS就是为了解决海量数据的分布式存储问题。HadoopDistributedFileSystem
HDFS简介--集群在大数据时代,数据量非常大,单个节点一台计算机是无论如何完成不了海量数据的存储,我们需要借助计算机集群存储海量数据。单机无法存储集群分布式存储
HDFS简介--集群每个竖排代表一个机架,每个机架上摆放了好多机器,每个机器称为一个节点,在企业一个机架可以摆放30-40个节点,机架和机架之间是通过光纤交换机来完成彼此之间的网络互联。在这个集群中,HDFS把整个文件分布的存储在这些机器里。
HDFS简介分布式文件系统解决了大数据存储问题,是横跨在多台计算机上的存储系统;分布式文件系统在大数据时代有着广泛的应用前景,为存储和处理超大规模数据提供扩展能力;分布式文件系统适用于一次写入,多次读出的场景,且不支持文件的修改,适合用来做数据分析。
HDFS的实现目标成本低流式数据访问适合处理大数据高容错性大文件存储
成本低HDFS集群可构建在廉价计算机上,通过多副本机制,提高可靠性。个人计算机搭建大数据集群HDFS的实现目标
适合流式数据访问HDFS的数据处理规模比较大,应用程序一次需要访问大量的数据,HDFS的设计目标就是全部数据全部读写,它不适合访问整个文件中的一个子集。HDFS是为满足海量数据的批量处理而设计的。HDFS的实现目标
适合处理大数据HDFS可横向扩展,其存储的数据规模:能够处理数据规模达到PB级别的数据;文件规模:能够处理百万规模以上的文件数量;节点规模:能够处理10K节点的规模。HDFS的实现目标
高容错性数据保存多个副本,副本丢失后自动恢复;构建在廉价的计算机上,容易实现线性扩展,当集群增加新节点之后,名称节点(NameNode)也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。HDFS的实现目标
适合大文件存储HDFS采用数据块的方式存储数据,将数据物理切分成多个小的数据块;当用户读取时,重新将多个小数据块拼接起来。HDFS的实现目标
0203不适合低延迟数据访问无法高效存储大量小文件不支持多用户写入及文件随机修改01HDFS自身的局限性
不适合低延迟数据访问HDFS不适合低延迟数据访问,比如毫秒级以内读取数据或者存储数据,HDFS是很难做到的。HDFS自身的局限性
无法高效的对大量小文件进行存储文件存储会占用名称节点的内存来存储文件目录和块信息,存储大量小文件就会耗费大量的内存,名称节点的内存总是有限的。HDFS自身的局限性
HDFS自身的局限性HDFS不支持多用户写入和文件随机修改HDFS目前不支持并发多用户的写操作和文件的随机修改,写操作只能在文件末尾追加数据,一个文件只能有一个写,不允许多个线程同时写。
本章小结本节我们了解到HDFS是hadoop兼容最好的标准级分布式文件系统,主要是对数据进行分布式储存和读取,探讨了HDFS的实现目标和自身的局限性。
Hadoop大数据项目开发——HDFS体系结构
目录content02数据节点块0405第二名称节点01HDFS体系结构03名称节点
HDFS体系结构HDFS的核心组件是名称节点(NameNode)和数据节点(DataNode)。它是一个主/从(master/slave)架构的系统,即一个HDFS集群由一个NameNode和若干DataNode组成。其中,名称节点为主节点,数据节点为从节点。HDFS的体系结构
块的概述Hadoop2.X版本默认的块大小为128M。块是HDFS中的最小存储单位,并且可以自定义大小。块按实际大小存储。拆分出来的块会有它相应的副本。
块的优势可以存储任意大小的数据文件,不用再受单个节点磁盘容量大小的限制。简化了文件存储子系统的设计,将元数据信息和文件数据信息分开存储。有利于实现负载均衡并提高集群可靠性。有利于实现分布式文件系统的容错性。
名称节点概述名称节点是整个HDFS集群的管家,名称节点上存储的元数据信息包括:数据块到数据节点的映射信息。每个文件由哪些数据块组成。文件目录的所有者及其权限。文件名、目录名及其层级关系。
名称节点的数据结构元数据信息可被持久化到本地磁盘的两个文件中,分别是元数据镜像文件(fsimage)和事务日志文件(edits)。fsimage存储着文件系统的所有命名空间信息。edits存储着HDFS数据的事务操作日志。名称节点的数据结构所谓的持久化,就是指把数据保存到可永久保存存储设备(如磁盘)中。
数据节点概述每个数据节点中的数据会被保存在各自节点的本
文档评论(0)