网站大量收购闲置独家精品文档,联系QQ:2885784924

03课件-BTC-Hadoop-01-第5讲 MapReduce概述.pptVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Mapreduce2.0(Yarn) 新旧框架配置变更明细 新旧 Hadoop 框架配置项变化表 * 配置文件 配置项 原框架 新框架 core-site.xml 系统默认分布式文件 URI fs.defaultFS hdfs-site.xml DFS name node 存放 name table 的目录 .dir .dir DFS data node 存放数据 block 的目录 dfs.data.dir dfs.datanode.data.dir 分布式文件系统数据块复制数 dfs.replication dfs.replication Mapreduce2.0(Yarn) 新旧框架配置变更明细 新旧 Hadoop 框架配置项变化表 * 配置文件 配置项 原框架 新框架 mapred-site.xml Job 监控地址及端口 mapred.job.tracker 无 第三方 MapReduce 框架 无 Mapreduce2.0(Yarn) 新旧框架配置变更明细 新旧 Hadoop 框架配置项变化表 * 配置文件 配置项 原框架 新框架 Yarn-site.xml NodeManager 与 RM 通信的接口地址 无 Yarn.resourcemanager.address RM 主机的 scheduler 调度服务接口地址 无 Yarn.resourcemanager.scheduler.address The address of the RM web application 无 Yarn.resourcemanager.webapp.address The address of the resource tracker interface 无 Yarn.resourcemanager.resource-tracker.address 本章总结 MapReduce定义 MapReduce特点 MapReduce架构 MapReduce执行流程 Mapreduce2.0(Yarn) * 谢谢 MapReduce 为什么如此受欢迎?尤其现在互联网+时代,互联网+公司都在使用 MapReduce。MapReduce 之所以如此受欢迎,它主要有以下几个特点。? -?MapReduce 易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。 就是因为这个特点使得 MapReduce 编程变得非常流行。? -?良好的扩展性。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。? -?高容错性。MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上面上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由?hadoop?内部完成的。? -?适合 PB 级以上海量数据的离线处理。这里加红字体离线处理,说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果,MapReduce 很难做到。? * MapReduce 虽然具有很多的优势,但是它也有不擅长的地方。这里的不擅长不代表它不能做,而是在有些场景下实现的效果差,并不适合 MapReduce 来处理,主要表现在以下几个方面。? -?实时计算。MapReduce 无法像?MySQL?一样,在毫秒或者秒级内返回结果。? -?流式计算。流式计算的输入数据时动态的,而 MapReduce 的输入数据集是静态的,不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。? -?DAG(有向图)计算。多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce 并不是不能做,而是使用后,每个MapReduce 作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。 * Map任务的输入是整个算法的输入,reducer任务的输出是整个算法的最终输出结果 * ?1)Client 客户端?    每一个 Job 都会在用户端通过 Client 类将应用程序以及配置参数 Configuration 打包成 JAR 文件存储在 HDFS,并把路径提交到 JobTracker 的 master 服务,然后由 master 创建每一个 Task(即 MapTask 和 ReduceTask) 将它们分发到各个 TaskTracker 服务中去执行。    2)JobTracker?   JobTracke负责资源监控和作业调度。JobTr

文档评论(0)

_______ + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档