网站大量收购独家精品文档,联系QQ:2885784924

妩媚人生--云计算技术与大规模数据并行处理.ppt

妩媚人生--云计算技术与大规模数据并行处理.ppt

  1. 1、本文档共164页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;主要内容;;;云计算的主要特点;云计算的分类;云计算硬件平台

;云计算的分类;云计算的分类;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展背景;Intel

微处理器

每秒

1千8百亿次

浮点运算!;巨型机:中国天河一号,2021年底世界TOP500强第1名

每秒2千5百多万亿次浮点运算,近20年性能提高3千多倍;TOP500系统

体系结构演化

向量机=SMP

=MPP=Cluster

Cluster以

高获得性、

高可扩展性优势

成为开展主流

;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展背景;云计算开展现状与趋势;GoogleCloudInfrastructure;;租用案例

2007年,美国纽约时报租用Amazon云计算平台,用于将1851-1922年纽约时报的1100万篇报刊文章转换为PDF文件,供读者上网免费访问。

共租用了100个EC2节点,运行了24小时,处理了4TB的报刊原始扫描图像,生成了1.5TB的PDF文件。

每节点每小时费用为10美分,整个计算任务仅花费了240美元(100节点x24小时x$0.10)!

如果用自己的效劳器,将需要数月和多得多的费用!;MicrosoftCloudServices

(WindowAzure,私有云平台管理和效劳软件);IBM云计算方案

(私有云计算平台管理和效劳软件);;中国移动BigCloud;大规模低本钱数据中心的订制化硬件设计;云计算开展现状与趋势;云计算开展现状与趋势;云计算开展现状与趋势;;;;;;;;什么是MapReduce?;典型的流式大数据处理问题的特征

大量数据记录/元素进行重复处理

对每个数据记录/元素作感兴趣的处理、获取感兴趣的中间结果信息

排序和整理中间结果以利后续处理

收集整理中间结果

产生最终结果输出;MapReduce的根本设计思想;MapReduce的根本设计思想;Map和Reduce操作的抽象描述

MapReduce借鉴了函数式程序设计语言Lisp中的思想,定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:

map:(k1;v1)?[(k2;v2)]

输入:键值对(k1;v1)表示的数据

处理:文档数据记录(如文本文件中的行,或数据表格中的行)将以“键值对〞形式传入map函数;map函数将处理这些键值对,并以另一种键值对形式输出处理的一组键值对中??结果[(k2;v2)]

输出:键值对[(k2;v2)]表示的一组中间数据;MapReduce的根本设计思想;MapReduce的根本设计思想;MapReduce的根本设计思想;MapReduce并行处理例如;MapReduce并行处理例如;Barrier;MapReduce并行处理例如;MapReduce并行处理例如;提供统一的计算框架;提供统一的计算框架;MapReduce的主要设计思想与特点;MapReduce的主要设计思想与特点;;顺序处理数据、防止随机访问数据

Processdatasequentiallyandavoidrandomaccess

大规模数据处理的特点决定了大量的数据记录不可能存放在内存、而只可能放在外存中进行处理。

磁盘的顺序访问和随即访问在性能上有巨大的差异

例:100亿(1010)个数据记录(每记录100B,共计1TB)的数据库

更新1%的记录(一定是随机访问)需要1个月时间;

而顺序访问并重写所有数据记录仅需1天时间!

MapReduce设计为面向大数据集批处理的并行计算系统,所有计算都被组织成很长的流式操作,以便能利用分布在集群中大量节点上磁盘集合的高传输带宽。;为应用开发者隐藏系统层细节

Hidesystem-leveldetailsfromtheapplicationdeveloper

软件工程实践指南中,专业程序员认为之所以写程序困难,是因为程序员需要记住太多的编程细节(从变量名到复杂算法的边界情况处理),这对大脑记忆是一个巨大的认知负担,需要高度集中注意力

而并行程序编写有更多困难,如需要考虑多线程中诸如同步等复杂繁琐的细节,由于并发执行中的不可预测性,程序的调试查错也十分困难;大规模数据处理时程序员需要考虑诸如数据分布存储管理、数据分发、数据通信和同步、计算结果收集等诸多细节问题

MapReduce提供了一种抽象机制将程序员与系统层细节隔离开来,程序员仅需描述需要计算什么(whattocompute),而具体怎么去做(howtocompute)就交由系统的执行框架处理,

文档评论(0)

ranfand + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档