Hadoop大数据开发基础与案例实战（微课版）课件 5.1认识MapReduce(完).pptx

下载文档

0
0
约1.85千字
约 16页
2025-03-12 发布于山东
举报
版权申诉
保障服务

Hadoop大数据开发基础与案例实战（微课版）课件 5.1认识MapReduce(完).pptx

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop大数据项目开发——认识MapReduce

目录content02MapReduce设计思想01MapReduce简介03MapReduce特点

MapReduce简介在大数据时代，数据量非常大，不能把数据放在一个单机上运行，而是借助一个集群通过多台机器同时并行处理大规模数据集，帮助我们获得海量的计算能力；单机无法运行集群多台机器并行处理

MapReduce简介开源实现谷歌公司最早提出分布式并行编程MapReduce，Hadoop平台对它进行了开源实现，成为Hadoop平台两个核心组件之一。

MapReduce简介任何一个节点出现问题不会影响其他节点正常运行，又设置了冗余和容错机制。整个集群可以随意增加减少计算节点，计算节点只需要很廉价的PC机。只需要告诉Hadoop“做什么？”，整个系统框架自动实现分布式部署。Hadoop平台对Google上的MapReduce进行了很多相关的优化处理：集群架构和容错性硬件价格及扩展性编程和学习难度

MapReduce设计思想Reduce函数Map函数屏蔽所有编程细节，把复杂的并行编程过程高度抽象为：MapReduce名称的由来：MapReduce整个框架中核心设计只有这两个函数，底层的细节都被隐藏掉了，所以它极大的降低了分布式并行编程的难度，这是MapReduce的突出优点。

MapReduce设计思想策略理念函数两个函数一个策略一个理念MapReduce的设计思想总结有：一个策略，一个理念，两个函数。

MapReduce设计思想一个策略：“分而治之”第一步：MapReduce采用分而治之；第二步：把非常庞大的数据集，切分成非常多的独立小分片；第三步：然后为每一个分片单独地启动一个Map任务；最后：最终通过多个Map任务，并行地在多个机器上去处理。

MapReduce设计思想一个理念：”计算向数据靠拢”机器：数据机器：数据机器：数据机器：计算在大数据计算设计时，采用“计算向数据靠拢”，移动计算比移动数据更加经济，大大减少了整个网络中数据传输开销，大大提升整个分布式程序的处理性能。机器：数据

MapReduce设计思想MapReduce把复杂的并行编程过程高度抽象为Map和Reduce两个函数Map对一组数据元素进行某种重复式的处理，提取数据的特征。Reduce对Map的中间结果进行某种进一步的结果整理。两个函数：Map函数和Reduce函数=+

MapReduce设计思想统一构架，隐藏系统层细节通过抽象模型和计算框架把需要“做什么”与“怎么做”分开，为设计者提供一个高层的编程接口和框架。将具体完成并行计算任务相关的诸多系统层细节隐藏起来，交给计算框架去处理。

MapReduce优点0203易于编程良好的扩展性高容错性01只需要告诉Hadoop“做什么？”，整个系统框架自动实现分布式部署。整个集群可以随意增加减少计算节点，计算节点只需要很廉价的PC机。任何一个节点出现问题不会影响其他节点正常运行，又设置了冗余和容错机制。

MapReduce不足不擅长实时计算不擅长流式计算不擅长有向图计算性能局限应用局限

MapReduce不足不擅长流式计算不擅长有向图计算不擅长实时计算MapReduce无法在毫秒或者秒级内返回结果。321流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化；MapReduce适用于海量数据的离线批处理；不适合数据事务处理或单一请求处理。多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO开销，导致性能非常低。

MapReduce不足Map任务和Reduce任务存在着严格的依赖关系，Map任务的中间结果存储在本地磁盘上，Reduce任务需要从磁盘上获取Map计算的中间结果并将其作为Reduce的输入，这样就会产生大量的磁盘IO开销，使得计算机性能降低。性能局限MapReduce不适合一般的Web应用，因为这些应用只是简单的数据访问且每次访问请求所需要的资源非常少，同时还需要满足高并发访问需求。应用局限

本节小结MapReduce是针对大规模集群中的分布式文件进行并行处理的计算模型；MapReduce设计目标就是让不熟悉分布式并行编程的开发人员，将自己的程序轻松运行在分布式系统上。