网站大量收购闲置独家精品文档,联系QQ:2885784924

基于Hado建设op的MapReduce框架研究报告.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hado建设op的MapReduce框架研究报告

实例分析:WordCount Combine(K, V[ ]) { Int count = 0; For each v in V count += v; Collect(K, count); } Output. Collecter Hello,1 World,1 Bye,1 World,1 Hello,1 Hadoop,1 Bye,1 Hadoop,1 Bye,1 Hadoop,1 Hello,1 Hadoop,1 Map Output Hello,1 World,2 Bye,1 Hello,1 Hadoop,2 Bye,1 Bye,1 Hadoop,2 Hello,1 Combine Combine Combine * 实例分析:WordCount Reduce(K, V[ ]) { Int count = 0; For each v in V count += v; Collect(K, count); } Internal Grouping Bye ? 1, 1, 1 Hadoop ? 2, 2 Hello ? 1, 1, 1 World ? 2 Reduce Output Bye, 3 Hadoop, 4 Hello, 3 World, 2 Reduce Reduce Reduce Reduce Reduce Input Hello,1 World,2 Bye,1 Hello,1 Hadoop,2 Bye,1 Bye,1 Hadoop,2 Hello,1 * 实例分析:WordCount 2.实现 Reduce 类: 这个类实现 Reducer 接口中的 reduce 方法, 输入参数中的 key, values 是由 Map 任务输出的中间结果,values 是一个 Iterator, 遍历这个 Iterator, 就可以得到属于同一个 key 的所有 value. 此处,key是一个单词,value 是词频。只需要将所有的 value 相加,就可以得到这个单词的总的出现次数。 * 实例分析:WordCount * 实例分析:WordCount 3.运行 Job: 在 Hadoop 中一次计算任务称之为一个 job, 可以通过一个 JobConf 对象设置如何运行这个 job。然后将 JobConf 对象作为参数,调用 JobClient 的 runJob, 开始执行这个计算任务。 * 实例分析:WordCount * 实例分析:WordCount 实验结果 Output: Number of occurrences of each word Input: File containing words Hello World Bye World Hello Hadoop Bye Hadoop Bye Hadoop Hello Hadoop Bye 3 Hadoop 4 Hello 3 World 2 MapReduce * 谢谢 陆老师的指导~-~ 刘兵兵、陈威同学的帮助~-~ * 谢谢 * 基于Hadoop的Map/Reduce框架研究报告 黄飞 * ............................ Outline 1. 模型介绍: Hadoop 简介 MapReduce 计算模型 2.实例分析 WordCount * Hadoop 简介 * Hadoop 简介 Hadoop 是一个开源分布式计算平台,它实现了 Map/Reduce 计算模型。借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。 * Hadoop 简介 分布式并行编程概念 基于集群的分布式并行编程能够让软件与数据同时运行在连成一个网络的许多台计算机上,由此获得海量计算能力。 * Hadoop 简介 迎接编程方式的变革 1.摩尔定律正在失效 根据摩尔定律,约每隔18个月,CPU性能会提高一倍。然而,由于晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在 2005 年左右开始失效。 2.分布式并行编程 互联网时代的到来,将使软件编程方式发生重大变革,基于大规模计算机集群的分布式并行编程是将来软件性能提升的主要途径。 * Hadoop 简介 1.Google Hadoop 2.Hadoop的未来 * Map/Reduce 计算模型 * Map/Reduce 计算模型 Map/Reduce 是 Hadoop的核心计算模型,它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数,Map 和 Reduce, 这是一个令人惊讶的简单却

文档评论(0)

ranfand + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档