- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop生态系统3Mapreduce分布式计算框架
陈 辉 2016年3月 --hadoop生态系统 Page ? * Hadoop生态系统 1、Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 Page ? * Hadoop生态系统 2、 HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。 HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。 Page ? * Hadoop生态系统 2、 HDFS(Hadoop分布式文件系统) Page ? * Hadoop生态系统 2、 HDFS(Hadoop分布式文件系统) Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。 NameNode:Master节点,在hadoop1.X中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。 DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。 Secondary NameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但Secondary NameNode并非NameNode的热备。 Page ? * Hadoop生态系统 3、 Mapreduce(分布式计算框架) 源自于google的MapReduce论文,发表于2004年12月,Hadoop MapReduce是google MapReduce 克隆版。 MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。 Page ? * Hadoop生态系统 3、 Mapreduce(分布式计算框架) Page ? * Hadoop生态系统 3、 Mapreduce(分布式计算框架) JobTracker:Master节点,只有一个,管理所有作业,作业/任务的监控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。 TaskTracker:Slave节点,运行Map Task和Reduce Task;并与JobTracker交互,汇报任务状态。 Map Task:解析每条数据记录,传递给用户编写的map(),并执行,将输出结果写入本地磁盘(如果为map-only作业,直接写入HDFS)。 Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。 Page ? * Hadoop生态系统 3、 Mapreduce(分布式计算框架) Mapreduce处理流程,以wordCount为例: Page ? * Hadoop生态系统 4、 Hive(基于Hadoop的数据仓库) 由facebook开源,最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。 Page ? * Hadoop生态系统 5、Hbase(分布式列存数据库) 源自Google的Bigtable论文,发表于2006年11月,HBase是Google Bigtable克隆版。 HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。 Page ? * Hadoop生态系统 5、Hbase(分布式列存数据库) HBase数据模型:Schema--Table--Colum
您可能关注的文档
- 2003网络设计师上午试题-Net130Com.DOC
- 1331水环境检测3基于总有机碳TOC.PPT
- 2009年汽车维修工高级技师理论考试复习题.DOC
- 2010中国国际丝绸博览会实施方案-商务部场运行司.DOC
- 2010-2011学年第二学期网络与信息安全技术课程期末复习资料.DOC
- 2012年陕西重大科技成果转化引导专项获奖成果转化项目建议表.DOC
- 2012辽宁科学技术计划项目申报.DOC
- 2012年全国职业院校技能大赛指定器材供应商.PPT
- 2013排污许可证管理制度及流程-浏阳.DOC
- 2014年应用技术研究与开发计划项目申报.DOC
- 中考语文总复习语文知识及应用专题5仿写修辞含句子理解市赛课公开课一等奖省课获奖课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第二课《藏猫猫》精品课件.pptx
- 湖南文艺版(2024)新教材一年级音乐下册第三课《我向国旗敬个礼》精品课件.pptx
- 高中生物第四章生物的变异本章知识体系构建全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 整数指数幂市公开课一等奖省赛课微课金奖课件.pptx
- 一年级音乐上册第二单元你早全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级数学上册第二章实数27二次根式第四课时习题省公开课一等奖新课获奖课件.pptx
- 九年级物理全册11简单电路习题全国公开课一等奖百校联赛微课赛课特等奖课件.pptx
- 八年级语文下册第五单元19邹忌讽齐王纳谏省公开课一等奖新课获奖课件.pptx
- 2024年秋季新人教PEP版3年级上册英语全册教学课件 (2).pptx
最近下载
- 2024年(新高考2卷)数学第19题 教师比赛说课课件.pptx
- 广州市中考:2024年-2022年《语文》考试真题与参考答案.pdf
- 带头增强党性、严守纪律、砥砺作风等四个方面存在问题及整改材料.docx VIP
- 《保护眼睛》大班教案.pdf VIP
- 2022年皖北卫生职业学院单招综合素质题库及答案解析.docx
- 2022年高考真题——英语(全国乙卷).pdf VIP
- 摄影入门课件课件.pptx
- 2025年单招职业技能测试试卷(二).pdf VIP
- 2024廊坊市广阳区爱民东道街道社区工作者招聘考试真题题库及答案.docx VIP
- 《新能源汽车技术》课件——第二章 动力电池.pptx VIP
文档评论(0)