- 1、本文档共35页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop体系结构
结构 多个服务器集群,包括一个Leader 客户端想其他服务器follower提交请求 命名服务(Naming) 分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。 配置管理(Configuration Management) 将配置信息保存在 Zookeeper 的某个目录节点中,然后将所有需要修改的应用机器监控配置信息的状态,一旦配置信息发生变化,每台应用机器就会收到 Zookeeper 的通知,然后从 Zookeeper 获取新的配置信息应用到系统中。 例如同一个应用系统需要多台 PC Server 运行,但是它们运行的应用系统的某些配置项是相同的,像这样的配置信息完全可以交给 Zookeeper 来管理。 配置管理结构图 集群管理(Group Membership) Zookeeper能够很容易的实现集群管理的功能,如有多台Server 组成一个服务集群,那么必须要一个“Leader”知道当前集群中每台机器的服务状态,一旦有机器不能提供服务,Leader做出调整重新分配服务策略。同样当增加集群的服务能力(增加一台或多台Server)时,Leader也会对集群做出调整。 Leader由Zookeeper自己选举,基于basic paxos和fast paxos(默认)。 集群管理结构图 工作原理(同步) 服务器的3种工作状态 Looking:当前服务器不知道leader是谁,搜寻中。 Leading:当前服务器为leader。 Following:当前服务器与leader同步。 Zab协议 恢复模式:当服务启动或者leader停止工作后,Zab进入恢复模式,当leader选举完成并于服务器完成同步之后,结束恢复模式。 广播模式:当某一服务器请求并完成数据更改后,leader就将数据更改信息广播,完成同步。 同步流程 Leader等待服务器连接; Follower连接leader,将最大zxid发送给leader; Leader根据follower的zxid确定同步点; 完成同步后通知folower已经成为uptodate状态; Follower收到uptodate消息后,就可以继续接受client请求。 谢谢观看! Hadoop体系结构 计算机应用技术 Hadoop简介 Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,为应用程序提供了一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。 基于Hadoop的应用可以轻松完成处理海量数据的分布式并行程序,并运行于大规模集群上。 总体结构 核心:Map Reduce与HDFS 优点 开源 可扩展 存储可扩展,计算可扩展。 经济 运行在廉价的PC机上。 可靠 自动保存多个副本,失败的任务自动重新分配。 高效 节点之间动态移动数据,各个节点动态平衡,处理速度非常快。 Hadoop与Google云计算系统对比 Hadoop云计算系统 Google云计算系统 功能 HDFS GFS 分布式文件系统 Hadoop MapReduce Google MapReduce 分布式处理模型 Hbase Bigtable 分布式数据库 ZooKeeper Chubby 解决一致性 Pig Sawzall 高级数据流语言 分布式文件系统HDFS 设计前提与目标 硬件错误是常态而不是异常 普通硬件故障很正常,提供错误检测和快速自动恢复。 流式数据访问 批量处理,注重高吞吐量。 超大规模数据集 支持大文件存储,提供整体上高的数据传输带宽。 简单一致性模型 一次性写,多次读的访问模式。 移动计算比移动数据更简单 移动程序比移动数据容易。 异构软硬件平台的可移植性 方便广泛推广使用。 体系结构 管理元数据 存储实际数据 工作示例 访问文件 客户端从NameNode获得文件数据块的存放位置列表。 直接从DataNode中读取数据访问文件。 NameNode不参与文件传输。 可靠性保障 冗余备份 副本存放 机架故障小于节点故障。 复制因子为3时本地存放2个,另一个机架存放1个。 心跳检测 NameNode周期接受DataNode的心跳包和块报告。 安全模式 启动时候检测数据块信息,副本达到最小标准为安全。 数据完整性检测 取出数据时对比创建文件时检验和(隐藏存放在NameNode) 可靠性保障 空间回收 文件被删除后保存在/trash目录。 元数据磁盘失效 映像文件和事务日志是核心数据,存放多个副本 NameNode节点失效,手动干预恢复 快照 回滚到过去某个时间的数据复制 目前不支持 提
您可能关注的文档
最近下载
- 高职“岗、课、赛、证、训、创”六位一体人才培养模式研究——以人工智能应用技术专业为例.pdf
- 永辉超市营运资金管理存在的问题及对策分析_20250126_225505.docx VIP
- 第四章 多彩的光之凸透镜专题(课件)中考物理一轮复习(沪科版).pptx VIP
- 经皮内镜下胃(空肠)造口术临床应用中国专家共识(2024版).docx VIP
- 机械制图 全套课件.ppt
- 民航旅客服务从业人员劳动竞赛试题库400题(供参考).docx
- 《TM-261A、461A使用说明书》.pdf
- 工业园物业服务工业园安全秩序管理方案.doc
- 2024年计量专业实务与案例分析二级参考答案.docx
- 《学前教育法》知识考试题库100题(含答案).docx
文档评论(0)