一-集群与网格计算试验室.PPT

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一-集群与网格计算试验室

* 作业提交:每个作业都是由用户节点通过以下步骤提交给JobTracker节点,此节点可能会位于集群内一个不同的节点上: 一个用户节点从JobTracker请求一个新的作业ID,并计算输入文件分块。 用户节点复制一些资源,比如用户的JAR文件、配置文件和计算输入分块,至JobTracker文件系统。 用户节点通过调用submitJob()函数提交任务至JobTracker。 任务分配:JobTracker为用户节点的每个计算输入块建立一个映射任务,并分配给TaskTracker的执行槽。当分配映射任务给TaskTracker时,JobTracker会考虑数据的定位。JobTracker也会创建化简任务,并分配给TaskTracker。 * 任务执行:把作业JAR文件复制到其文件系统之后,在TaskTracker执行一个任务(不管映射还是化简)的控制流就开始了。在启动Java虚拟机(Java Virtual Machine,JVM)来运行它的映射或化简任务后,就开始执行作业JAR文件里的指令。 任务运行校验:通过接收从TaskTracker到JobTracker的周期性心跳监听消息来完成任务运行校验。每个心跳监听会告知JobTracker传送中的TaskTracker是可用的,以及传送中的TaskTracker是否准备好运行一个新的任务。 * * * * Cloud applications are the key global opportunity for developers during next four years 2009: $8.5 billion 2013: $16.8 billion * 图6-2 在5个处理步骤中连续(key,value)对的MapReduce逻辑数据流 * 反过来,Reduce函数以中间值群组的形式接受中间(key, value)对,这个中间值群组和一个中间key(key, [set of values])相关。 实际上,MapReduce框架形成了这些群组,首先是对中间(key, value)对排序,然后以相同的key来把value分组。 需要注意的是,数据的排序是为了简化分组过程。Reduce函数处理每个(key, [set of values])群组,并产生(key, value)对集合作为输出。 * 著名的MapReduce问题——被称为“单词计数”(word,count),是用来计算一批文档中每一个单词出现的次数。图6-3说明了一个简单输入文档的“单词计数”问题的数据流,这个文件只包含如下两行:(1)“most people ignore most poetry”, (2)“most poetry ignores most people”。在这个例子里,Map函数同时为每一行内容产生若干个中间(key, value)对,所以每个单词都用带“1”的中间键值作为其中间值,如(ignore, 1)。然后,MapReduce库收集所有产生的中间(key, value)对,进行排序,然后把每个相同的单词分组为多个“1”,如(people, [1,1])。然后把组并行送入Reduce函数,所以就把每个单词的“1”累加起来,并产生文件中每个单词出现的实际数目,例如(people, 2) * 图6-3单词计数问题的数据流,以级联操作方式使用MapReduce函数(Map,Sort,Group和Reduce) * MapReduce数据流的形式化符号 * 解决MapReduce问题的策略 将所有中间数据分组之后,出现相同key的value会排序并组合在一起。产生的结果是,分组之后所有中间数据中每一个key都是唯一的。所以寻找唯一的key是解决一个典型MapReduce问题的出发点。然后,作为Map函数输出的中间(key, value)对将会自动找到。 下面的三个例子解释了如何在这些问题中确定key和value: * 问题1:计算一批文档中每个单词的出现次数。 解:唯一“key”——每个单词;中间“value”——出现次数。 问题2:计算一批文档中相同大小、相同字母数量的单词的出现次数。 解:唯一“key”——每个单词;中间“value”——单词大小。 问题3:计算一批文档中变位词(anagram)出现的次数。变位词是指字母相同但是顺序不同的单词(例如,单词“listen”和“silent”)。 解:唯一“key”——每个单词中按照字母顺序排列的字母(如“eilnst”);中间“value”——出现次数。 * MapReduce真实数据和控制流 1.数据分区:MapReduce库将已存入GFS的

您可能关注的文档

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档