第8讲批量计算.pptx

下载文档

0
0
约1.01万字
约 64页
2025-02-20 发布于四川
举报
版权申诉
保障服务

第8讲批量计算.pptx

1、本文档共64页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第8讲批量计算莫同motong@

上一讲回顾存储基础新问题与新挑战索引技术分布式文件系统系统架构读写流程节点任务云存储应用典型应用云存储存储基础分布式文件系统云存储应用

内容提要1引言2MapReduce3算法调优

引言IT系统核心——数据存储与处理云存储数据处理怎么高效的处理海量数据？大家DIY一下

引言思考一下，如何快速解决如下问题如何快速计算TB甚至PB量级数据的sum、count如何将TB甚至PB量级数据进行有序化如何在海量数据中找出关键字匹配的内容如何在茫茫数据海中寻找相似的同类求解问题的难度问题本身的难度问题规模的难度

引言现实中的例子银行窗口项目组

引言人月神话？项目组vs单机项目组：J+M+RM和R随人数增加而增加当ΔM+ΔRΔJ时，人月神话崩溃IT世界是否也面临同样的问题？

引言提高单处理机效率摩尔定律集成电路芯片上所集成的电路的数目，每隔18个月就翻一番，同时性能也提升一倍单核能力提升遇到瓶颈

引言摩尔定律正在走向终结…单芯片容纳晶体管的增加，对制造工艺提出要求CPU制造达到个位数纳米技术，电子泄漏问题CPU主频已达3GHz以上，难以继续提高散热问题（发热太大，且难以驱散）功耗太高多核

引言在多核时代生存，必须考虑并发问题不存在解决多核编程问题的银弹，不存在可以简单地将并发编程问题化解掉的工具，开发高性能的并行程序必须要求开发者从根本上改变其编程

方法从某种意义上来说，这不仅仅是要改变50年来顺序程序设计的工艺传统，而且是要改变数百万年来人类顺序化思考问题的习惯

引言串行编程早期的计算里，程序一般是被串行执行的程序是指令的序列，在单处理器的机器里，程序从开始到结束，这些指令一条接一条的执行并行编程一道处理可以被划分为几部分,然后它们可以并发地执行各部分的指令分别在不同的CPU上同时运行，这些CPU可以存在于单台机器中,也可以存在于多台机器上,它们通过连接起来共同运作

引言什么样的问题适合并行计算？斐波那契序列(Fibonacci)的计算？

引言什么样的问题适合并行计算？如果有大量结构一致的数据要处理，且数据可以分解成相同大小的部分，那我们就可以设法使这道处理变成并行

引言计算问题简单，但求解困难待处理数据量巨大（PB级），只有分布在成百上千个节点上并行计算才能在可接受的时间内完成如何进行并行分布式计算？如何分发待处理数据？如何处理分布式计算中的错误？问题简单，但计算并不简单！

引言设计一个新的计算模型只要执行的简单计算将并行化、容错、数据分布、负载均衡等细节问题放在一个库里，使并行编程时不必关心它们。GoogleMapReduce架构设计师JeffreyDean

引言批量计算batchcomputing最为常见的一类数据计算问题数据规模不变数据已经保存，用户驱动计算计算实时性要求不高，但尽可能快可能存在重复性问题，尽可能优化计算逻辑相对简单数据规模巨大时会导致计算框架本身产生问题怎么做到弹性可扩展能够应对理论上的无限量数据涉及存储、计算逻辑、计算执行过程控制等一系列问题

内容提要1引言2MapReduce3算法调优

MapReduce代表性批量计算架构——MapReduce一个软件架构，是一种处理海量数据的并行编程模式用于大规模数据集（通常大于1TB）的并行运算可以被多种处理框架执行HadoopSpark…

MapReduceMapReduce实现了Map和Reduce两个功能Map把一个函数应用于集合中的所有成员，然后返回一个基于这个处理的结果集Reduce对结果集进行分类和归纳Map()和Reduce()两个函数可能会并行运行，即使不是在同一的系统的同一时刻

MapReduce架构

MapReduce实现原理

MapReduceGoogle的MapReduce源文件：GFSMap处理结果：本地存储Reduce处理结果：GFS日志：GFS

MapReduce实践证明，MapReduce是出色的分布式计算模型Google宣布，其对分布于1000台计算机上的1TB数据进行排序仅仅需要68s对4000台计算机上的1PB数据进行排序处理仅需要6小时2分钟（每次测试至少会损坏1块硬盘）在08年1月份，GoogleMapReduce平均每天的数据处理量是20PB，相当于美国国会图书馆当年5月份存档网络数据的240倍

MapReduce案例：单词记数问题(WordCount)给定一个巨大的文本（如1TB），如何快速计算单词出现的数目？大家DIY一下

MapReduce使用MapReduce求解该问题定义Map和Reduce函数

MapReduce使用MapReduce求解该问题Step1:自动对文本进行分割

MapReduce使用MapReduc

您可能关注的文档

文档评论（0）

yzs890305 + 关注: 实名认证

内容提供者

计算机二级持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2024年11月02日上传了计算机二级

1亿VIP精品文档

更多 >

第8讲批量计算.pptx