《商务大数据分析与应用》课件——3-3-2 认识大数据文件系统HDFS.pptxVIP

《商务大数据分析与应用》课件——3-3-2 认识大数据文件系统HDFS.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共17页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PART01认识HDFS分布式文件系统(DistributeFileSystem)是一种允许文件通过网络在多台主机上分享的文件的系统,可让多机器上的多用户分享文件和存储空间。HDFS(HadoopDistributeFileSystem)是Hadoop的一个分布式文件系统,Hadoop应用程序使用的主要分布式存储。

HDFS简介Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统。HDFS体系结构中有两类节点NameNode名称节点承担Master具体任务的执行DataNode数据节点承担Worker具体任务的执行总的设计思想:分而治之,将大文件、大批量文件,分布式存放在大量独立的服务器上,以便于采取分而治之的方式对海量数据进行运算分析。

HDFS简介HDFS是一个主/从体系结构HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。HDFS一般是用来“一次写入,多次读取”,不适合做实时交互性很强的事情,不适合存储大量小文件。

HDFS基本原理文件系统是操作系统提供的磁盘空间管理服务,只需要我们制定把文件放到哪儿,从哪个路径读取文件就可以了,而不需要关心文件在磁盘上是如何存放的。

文件系统的问题当文件所需空间大于本机磁盘空间时,应该如何处理呢?1加磁盘,但是加到一定程度就有限制了2加机器,把不同文件放入不同的机器中,空间不足了可继续加机器,突破了存储空间的限制。

文件系统的问题传统的分布式文件系统存在多个问题:各个存储节点的负载不均衡,单机负载可能极高。数据可靠性低。文件管理困难。

HDFS的解决思路HDFS是个抽象层,底层依赖很多独立的服务器,对外提供统一的文件管理功能。对于用户来讲,感觉就像文件系统运行在单一服务器上,感受不到HDFS下面的多台服务器。HDFS基本架构

HDFS的解决思路为了解决存储节点负载不均衡的问题。HDFS首先把一个文件分割成多个块,然后再把这些文件块存储在不同服务器上。这种方式的优势就是不怕文件太大,并且读文件的压力不会全部集中在一台服务器上,从而可以避免某个热点文件会带来的单机负载过高的问题。

HDFS的解决思路例如:用户需要保存一个文件/a/b/xxx.avi。HDFS首先会把这个文件进行分割,例如分为4块,然后分别存放到不同服务器上。

HDFS的解决思路但是如果某台服务器坏了,那么文件就读不全了。如果磁盘不能恢复,那么存储在上面的数据就会丢失。为了保证文件可靠性,HDFS会把每个文件块进行多个备份,一般情况下是3个备份。假如:要在由4台分别为服务器A、B、C和D的存储节点组成的HDFS上存储文件/a/b/xxx.avi,那么,为了保证文件的可靠性,HDFS会怎么做呢?

HDFS的解决思路块1:ABC块2:ABD块3:BCD块4:ACD

HDFS的解决思路采用分块多副本存储方式后,HDFS文件的可靠性就大大增强了,即使某个服务器坏了,也仍然可以完整读取文件;同时还带来一个很大的好处,就是增加了文件的并发访问能力。例如:多个用户读取这个文件时,都要读块1,HDFS可以根据服务器的繁忙程度,选择从哪台服务器读块1。

HDFS的设计理念简单来讲,HDFS设计理念是可以运行在普通机器上,以流式数据方式存储文件,一次写入、多次查询。可构建在廉价机器上高容错性适合批处理适合存储大文件

HDFS的设计理念可构建在廉价机器上HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。通过多副本提高可靠性,提供了容错和恢复机制。高容错性由于HDFS可以建立在普通计算机上,节点故障是正常事情。HDFS将数据自动保存多个副本,副本丢失后,自动恢复,实现数据高容错性。

HDFS的设计理念适合批处理也称为流式数据访问。HDFS适合一次写入、多次查询(读取)的情况。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将涉及该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。适合存储大文件这里说的大文件包含两种意思:一是值文件大小超过100M以及达到GB甚至TB、PB的文件。二是百万规模以上的文件数量。

HDFS的局限HDFS的设计理念是为了满足特定的大数据应用场景,所以HDFS具有一定的局限性,不能适用于所有应用场景。实时性差小文件问题文件修改问题

HDFS的设计理念实时性差要求低时间延迟的访问的应用,不适合在HDFS上运行。HDFS是为高数据吞吐量应用优化的,这可能会以高时间延迟为代价。小文件问题由于NameNode将文件系统的元数据存储在内存中,因此该文件系统所能存储的

文档评论(0)

青柠职教 + 关注
实名认证
服务提供商

从业10年,专注职业教育专业建设,实训室建设等。

1亿VIP精品文档

相关文档