开源云计算系统hadoop.pdf

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop 电子工业出版社刘鹏主编《云计算》教材配套课件8 主要内容 • Hadoop项目简介 • HDFS体系结构 • HDFS关键运行机制 • Hadoop VS.Google(分布式文件系统) • Hadoop API • Hadoop环境搭建 Hadoop项目简介 • Apache的解决方案 GFS--HDFS MapReduce--Hadoop BigTable--HBase Google云计算 Google云计算 MapReduce BigTable MapReduce BigTable Chubb Chubb y GFS y GFS Hadoop项目简介 • HDFS为了做到可靠性(reliability)创建了多份数据块( data blocks)的复制(replicas),并将它们放置在服务器 群的计算节点中(compute nodes),MapReduce就可以在它 们所在的节点上处理这些数据了。 HDFS体系结构 • NameNodeMaster • DataNodeChunksever HDFS关键运行机制 --保障可靠性的措施 • 一个名字节点和多个数据节点 • 数据复制(冗余机制) --存放的位置(机架感知策略) • 故障检测 --数据节点 心跳包(检测是否宕机) 块报告(安全模式下检测) 数据完整性检测(校验和比较) --名字节点(日志文件,镜像文件) • 空间回收机制 HDFS关键运行机制 --写文件流程 • 客户端缓存 • 流水线复制 • 并发写控制 • 流程: 1.客户端把数据缓存到本地临时文件夹 2.临时文件夹数据超过64M,客户端联系NameNode, NameNode分配 DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距 离和最小的序列 3.与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待 回应,依次下传,客户端得到回包,流水线建立成功, 4. 正式发送数据,以4K为大小传送 HDFS关键运行机制 --读文件流程 • 客户端联系NameNode,得到所有数据块信息,以及 数据块对应的所有数据服务器的位置信息 • 尝试从某个数据块对应的一组数据服务器中选出 一个,进行连接(选取算法未加入相对位置的考 虑) • 数据被一个包一个包发送回客户端,等到整个数 据块的数据都被读取完了,就会断开此链接,尝 试连接下一个数据块对应的数据服务器,整个流 程,依次如此反复,直到所有想读的都读取完了 为止 Hadoop VS. Google • 技术架构的比较 – 数据结构化管理组件:Hbase→BigTable – 并行计算模型:MapReduce→MapReduce – 分布式文件系统:HDFS→GFS – Hadoop缺少分布式锁服务Chubby Hadoop云计算应用

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档