computerarchitecture(graduates).ppt

下载文档 降价啦

11
0
约1.21万字
约 64页
2017-02-13 发布于天津
举报
版权申诉
保障服务

computerarchitecture(graduates).ppt

1、本文档共64页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

computerarchitecture(graduates)

* 作业提交：每个作业都是由用户节点通过以下步骤提交给JobTracker节点，此节点可能会位于集群内一个不同的节点上：一个用户节点从JobTracker请求一个新的作业ID，并计算输入文件分块。用户节点复制一些资源，比如用户的JAR文件、配置文件和计算输入分块，至JobTracker文件系统。用户节点通过调用submitJob()函数提交任务至JobTracker。任务分配：JobTracker为用户节点的每个计算输入块建立一个映射任务，并分配给TaskTracker的执行槽。当分配映射任务给TaskTracker时，JobTracker会考虑数据的定位。JobTracker也会创建化简任务，并分配给TaskTracker。 * 任务执行：把作业JAR文件复制到其文件系统之后，在TaskTracker执行一个任务（不管映射还是化简）的控制流就开始了。在启动Java虚拟机（Java Virtual Machine，JVM）来运行它的映射或化简任务后，就开始执行作业JAR文件里的指令。任务运行校验：通过接收从TaskTracker到JobTracker的周期性心跳监听消息来完成任务运行校验。每个心跳监听会告知JobTracker传送中的TaskTracker是可用的，以及传送中的TaskTracker是否准备好运行一个新的任务。 * * * * Cloud applications are the key global opportunity for developers during next four years 2009: $8.5 billion 2013: $16.8 billion * 图6-2 在5个处理步骤中连续（key，value）对的MapReduce逻辑数据流 * 反过来，Reduce函数以中间值群组的形式接受中间(key, value)对，这个中间值群组和一个中间key(key, [set of values])相关。实际上，MapReduce框架形成了这些群组，首先是对中间(key, value)对排序，然后以相同的key来把value分组。需要注意的是，数据的排序是为了简化分组过程。Reduce函数处理每个(key, [set of values])群组，并产生(key, value)对集合作为输出。 * 著名的MapReduce问题——被称为“单词计数”（word，count），是用来计算一批文档中每一个单词出现的次数。图6-3说明了一个简单输入文档的“单词计数”问题的数据流，这个文件只包含如下两行：（1）“most people ignore most poetry”， (2)“most poetry ignores most people”。在这个例子里，Map函数同时为每一行内容产生若干个中间(key, value)对，所以每个单词都用带“1”的中间键值作为其中间值，如(ignore, 1)。然后，MapReduce库收集所有产生的中间(key, value)对，进行排序，然后把每个相同的单词分组为多个“1”，如(people, [1,1])。然后把组并行送入Reduce函数，所以就把每个单词的“1”累加起来，并产生文件中每个单词出现的实际数目，例如(people, 2) * 图6-3单词计数问题的数据流，以级联操作方式使用MapReduce函数（Map，Sort，Group和Reduce） * MapReduce数据流的形式化符号 * 解决MapReduce问题的策略将所有中间数据分组之后，出现相同key的value会排序并组合在一起。产生的结果是，分组之后所有中间数据中每一个key都是唯一的。所以寻找唯一的key是解决一个典型MapReduce问题的出发点。然后，作为Map函数输出的中间(key, value)对将会自动找到。下面的三个例子解释了如何在这些问题中确定key和value： * 问题1：计算一批文档中每个单词的出现次数。解：唯一“key”——每个单词；中间“value”——出现次数。问题2：计算一批文档中相同大小、相同字母数量的单词的出现次数。解：唯一“key”——每个单词；中间“value”——单词大小。问题3：计算一批文档中变位词（anagram）出现的次数。变位词是指字母相同但是顺序不同的单词（例如，单词“listen”和“silent”）。解：唯一“key”——每个单词中按照字母顺序排列的字母（如“eilnst”）；中间“value”——出现次数。 * MapReduce真实数据和控制流 1.数据分区：MapReduce库将已存入GFS的