- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Hadoop大数据项目开发——HDFS简介
目录content0201HDFS简介HDFS实现目标和自身局限性
HDFS简介HDFS是Hadoop两大核心组件之一。分布式存储:HDFS分布式处理:MapReduceHDFS就是为了解决海量数据的分布式存储问题。HadoopDistributedFileSystem
HDFS简介--集群在大数据时代,数据量非常大,单个节点一台计算机是无论如何完成不了海量数据的存储,我们需要借助计算机集群存储海量数据。单机无法存储集群分布式存储
HDFS简介--集群每个竖排代表一个机架,每个机架上摆放了好多机器,每个机器称为一个节点,在企业一个机架可以摆放30-40个节点,机架和机架之间是通过光纤交换机来完成彼此之间的网络互联。在这个集群中,HDFS把整个文件分布的存储在这些机器里。
HDFS简介分布式文件系统解决了大数据存储问题,是横跨在多台计算机上的存储系统;分布式文件系统在大数据时代有着广泛的应用前景,为存储和处理超大规模数据提供扩展能力;分布式文件系统适用于一次写入,多次读出的场景,且不支持文件的修改,适合用来做数据分析。
HDFS的实现目标成本低流式数据访问适合处理大数据高容错性大文件存储
成本低HDFS集群可构建在廉价计算机上,通过多副本机制,提高可靠性。个人计算机搭建大数据集群HDFS的实现目标
适合流式数据访问HDFS的数据处理规模比较大,应用程序一次需要访问大量的数据,HDFS的设计目标就是全部数据全部读写,它不适合访问整个文件中的一个子集。HDFS是为满足海量数据的批量处理而设计的。HDFS的实现目标
适合处理大数据HDFS可横向扩展,其存储的数据规模:能够处理数据规模达到PB级别的数据;文件规模:能够处理百万规模以上的文件数量;节点规模:能够处理10K节点的规模。HDFS的实现目标
高容错性数据保存多个副本,副本丢失后自动恢复;构建在廉价的计算机上,容易实现线性扩展,当集群增加新节点之后,名称节点(NameNode)也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。HDFS的实现目标
适合大文件存储HDFS采用数据块的方式存储数据,将数据物理切分成多个小的数据块;当用户读取时,重新将多个小数据块拼接起来。HDFS的实现目标
0203不适合低延迟数据访问无法高效存储大量小文件不支持多用户写入及文件随机修改01HDFS自身的局限性
不适合低延迟数据访问HDFS不适合低延迟数据访问,比如毫秒级以内读取数据或者存储数据,HDFS是很难做到的。HDFS自身的局限性
无法高效的对大量小文件进行存储文件存储会占用名称节点的内存来存储文件目录和块信息,存储大量小文件就会耗费大量的内存,名称节点的内存总是有限的。HDFS自身的局限性
HDFS自身的局限性HDFS不支持多用户写入和文件随机修改HDFS目前不支持并发多用户的写操作和文件的随机修改,写操作只能在文件末尾追加数据,一个文件只能有一个写,不允许多个线程同时写。
本章小结本节我们了解到HDFS是hadoop兼容最好的标准级分布式文件系统,主要是对数据进行分布式储存和读取,探讨了HDFS的实现目标和自身的局限性。
您可能关注的文档
- 1.1走进大数据世界(完).pptx
- 3.4虚拟机集群环境配置-修改IP地址.pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 3.3虚拟机克隆.pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 3.1虚拟机安装.pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 2.1Hadoop简介.pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 2.2Hadoop生态系统(完).pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 3.7 JDK安装.pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 3.9Hadoop分布式集群启动.pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 4.2HDFS相关概念.pptx
- Hadoop大数据开发基础与案例实战(微课版)课件 4.3HDFS运行机制.pptx
- 2024年度党员干部民主生活会班子对照检查材料.docx
- 公司党委领导班子2024年度民主生活会对照检查材料4个带头方面.docx
- 市府办(政府办)领导班子2024年民主生活会会后综合情况报告.docx
- 在2025年市司法局信息宣传工作推进会上的讲话.docx
- 在2025年全省文化旅游高质量发展推进会上的讲话.docx
- 在2025年全区工业、住建大规模设备更新推进会上的讲话.docx
- 党支部2024年组织生活会民主评议党员情况总结报告_1.docx
- 2024年度组织生活会个人对照检查剖析材料.docx
- 镇党委书记2024年度民主生活会对照检查材料1.docx
- 党支部2024年组织生活会民主评议党员情况总结报告.docx
最近下载
- 新能源车与传统燃油车PK.pptx
- 电桩车位出租合同6篇.docx
- 成人肥胖食养指南(2024年版).pdf
- 机械制图习题集第4版张绍群习题答案.pdf
- 2025届广东省深圳高级中学高中园高三下学期第一次模拟考试政治试题(原卷版+解析版).docx VIP
- 新教科版(2024)小学一年级科学下册第一单元第4课《4.认识物体的形状》精品课件.pptx VIP
- 基于EPC模式的项目管理项目协调管理80课件讲解.pptx
- 东菱EPS-BS驱动器技术手册V1.5.pdf
- 老年心房颤动诊治中国专家共识2024版.pptx VIP
- 新时代思想学生读本(高中)5.5《促进人与自然和谐共生》课件.pptx VIP
文档评论(0)