- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop初识;Hadoop生态概述;HDFS;1 、检测和快速恢复硬件故障
硬件故障时计算机常见的问题。整个HDFS系统由数百甚至上千个存储着数据文件的服务器组成。而如此多的服务器则意味着高故障率,因此,故障的检测和快速自动恢复是HDFS的一个核心目标。
2、 流式的数据访问
HDFS使应用程序流式地访问它们的数据集。HDFS被设计成适合进行批量处理,而不是用户交互式处理。所以它重视数据吞吐量,而不是数据访问的反应速度。
;
3 、简化一致性模型
大部分的HDFS程序对文件模型的操作需要一次写入,多次读取。一个文件一旦经过创建,写入,关闭就不需要修改了。这个假设简化了数据一致性问题和高吞吐量的数据访问问题。
4 、通信协议
所有的通信协议都是在TCP/IP协议之上的。一个客户端和明确配置了端口的名字节点(NameNode)建立连接之后,它和名字节点的协议便是客户端协议(Client Protocal)。数据节点(DataNode)和名字之间则用数据节点协议(DataNode Protocal)。;优点:
1、处理超大文件
这里的超大文件通常是指百MB、甚至数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。
2、流式的访问数据
HDFS的设计建立在“一次写入、多次读写”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。
3、运行于廉价的商用机器集群上
Hadoop设计对应急需求比较低,只须运行在低廉的商用硬件集群上,而无需在昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。HDFS遇到了上述故障时,被设计成能够继续运行且不让用户察觉到明显的中断。
;缺点:
1、不适合低延迟数据访问
如果要处理一些用户要求时间比较短的低延迟应用请求,则HDFS不适合。HDFS是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的,这就可能要求以高延迟作为代价。
改进策略:对于那些有低延时要求的应用程序,HBase是一个更好的选择,通过上层数据管理项目尽可能地弥补这个不足。在性能上有了很大的提升,它的口号是goes real time。使用缓存或多个master设计可以降低Clinet的数据请求压力,以减少延时。
2、不支持多用户写入及任意修改文件
在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作,目前HDFS还不支持多个用户对同一文件的写操作,以及在文件任意位置进行修改。
;缺点:
3、无法高效存储大量的小文件
因为NameNode把文件系统的元数据放置在内存中,所有文件系统所能容纳的文件数目是由NameNode的内存大小来决定。还有一个问题就是,因为MapTask的数量是由Splits来决定的,所以用MR处理大量的小文件时,就会产生过多的MapTask,线程管理开销将会增加作业时间。当Hadoop处理很多小文件(文件大小小于HDFS中Block大小)的时候,由于FileInputFormat不会对小文件进行划分,所以每一个小文件都会被当做一个Split并分配一个Map任务,导致效率底下。
改进策略:要想让HDFS能处理好小文件,有不少方法。利用SequenceFile、MapFile、Har等方式归档小文件,这个方法的原理就是把小文件归档起来管理,HBase就是基于此的。
;HDFS基本架构图;HDFS读文件流程;HDFS写文件流程;
选项名称 使用格式 含义
-ls -ls 路径 查看指定路径的当前目录结构
-lsr -lsr 路径 递归查看指定路径的目录结构
-du -du 路径 统计目录下各文件大小
-dus -dus 路径 汇总统计目录下文件(夹)大小
-count -count [-q] 路径 统计文件(夹)数量
-mv -mv 源路径 目的路径 移动
-cp -cp 源路径 目的路径 复制
-rm -rm [-skipTrash 慎用] 路径 删除文件/空白文件夹
-rmr -rmr [-skipTrash] 路径 递归删除
-put -put 多个linux上的文件 hdfs路径 上传文件
-copyFromLocal -copyFromLocal 多个linux上的文件 hdfs路径 从本地复制
-moveFromLocal -moveFromLocal 多个linux上的文件 hdfs路径 从本地移动
;选项名称 使用格式 含义
您可能关注的文档
- GEIPPLC通讯介绍讲解.ppt
- GEPLC第10讲__定时器指令3讲解.ppt
- GGAj02—K型产品培训指南讲解.doc
- GIS二次开发期末复习题(2016.6.10修改)讲解.doc
- 1凸轮机构的工作原理和从动件的运动规律摘要.ppt
- 某大型场地岩土工程勘察报告(工程可行性研究阶段)-secret分析.doc
- GMP检查细则讲解.ppt
- GMP文件的编制管理讲解.ppt
- 1微积分的基础和研究对象摘要.ppt
- 1-系统设置摘要.doc
- wipo-2022年技术与创新支持中心和技术转让办公室报告 - 加强地方创新能力以加速知识和技术转让.docx
- 中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估.docx
- 2024年三季度宏观经济分析报告.docx
- 【深交所】红日药业:2024年一季度报告.docx
- Acc智能制造与卓越运营业务体系设计咨询方案.docx
- 第六代固定通信网(F6G)白皮书V2.0——天地一体化光通信技术.docx
- 提升效益 持盈保泰-摩根大通2024年中国运营资金指数报告-摩根大通.docx
- 新时代低空休闲发展研究-中国旅游协会休闲度假分会.docx
- 标普信评 -保障房怎么搞?--新加坡模式的借鉴与启发 202409.docx
- 标普信评 -一文看懂电力行业信用趋势:风光发电杠杆或持续上升 202409.docx
文档评论(0)