03课件-BTC-Hadoop-01-第5讲 MapReduce概述.pptVIP

下载本文档

3
0
约1.5万字
约 27页
2020-07-22 发布于浙江
举报
版权申诉

03课件-BTC-Hadoop-01-第5讲 MapReduce概述.ppt

1、本文档共27页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Mapreduce2.0（Yarn）新旧框架配置变更明细新旧 Hadoop 框架配置项变化表 * 配置文件配置项原框架新框架 core-site.xml 系统默认分布式文件 URI fs.defaultFS hdfs-site.xml DFS name node 存放 name table 的目录 .dir .dir DFS data node 存放数据 block 的目录 dfs.data.dir dfs.datanode.data.dir 分布式文件系统数据块复制数 dfs.replication dfs.replication Mapreduce2.0（Yarn）新旧框架配置变更明细新旧 Hadoop 框架配置项变化表 * 配置文件配置项原框架新框架 mapred-site.xml Job 监控地址及端口 mapred.job.tracker 无第三方 MapReduce 框架无 Mapreduce2.0（Yarn）新旧框架配置变更明细新旧 Hadoop 框架配置项变化表 * 配置文件配置项原框架新框架 Yarn-site.xml NodeManager 与 RM 通信的接口地址无 Yarn.resourcemanager.address RM 主机的 scheduler 调度服务接口地址无 Yarn.resourcemanager.scheduler.address The address of the RM web application 无 Yarn.resourcemanager.webapp.address The address of the resource tracker interface 无 Yarn.resourcemanager.resource-tracker.address 本章总结 MapReduce定义 MapReduce特点 MapReduce架构 MapReduce执行流程 Mapreduce2.0（Yarn） * 谢谢 MapReduce 为什么如此受欢迎？尤其现在互联网+时代，互联网+公司都在使用 MapReduce。MapReduce 之所以如此受欢迎，它主要有以下几个特点。?-?MapReduce 易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。?-?良好的扩展性。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。?-?高容错性。MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上面上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由?hadoop?内部完成的。?-?适合 PB 级以上海量数据的离线处理。这里加红字体离线处理，说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果，MapReduce 很难做到。? * MapReduce 虽然具有很多的优势，但是它也有不擅长的地方。这里的不擅长不代表它不能做，而是在有些场景下实现的效果差，并不适合 MapReduce 来处理，主要表现在以下几个方面。?-?实时计算。MapReduce 无法像?MySQL?一样，在毫秒或者秒级内返回结果。?-?流式计算。流式计算的输入数据时动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。?-?DAG（有向图）计算。多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。 * Map任务的输入是整个算法的输入，reducer任务的输出是整个算法的最终输出结果 * ?1）Client 客户端?　　每一个 Job 都会在用户端通过 Client 类将应用程序以及配置参数 Configuration 打包成 JAR 文件存储在 HDFS，并把路径提交到 JobTracker 的 master 服务，然后由 master 创建每一个 Task（即 MapTask 和 ReduceTask）将它们分发到各个 TaskTracker 服务中去执行。　　 2）JobTracker?　　JobTracke负责资源监控和作业调度。JobTr