云计算技术及大规模数据并行处理.ppt

下载文档 降价啦

4
0
约8.75千字
约 168页
2018-06-05 发布于浙江
举报
版权申诉
保障服务

云计算技术及大规模数据并行处理.ppt

1、本文档共168页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

云计算技术及大规模数据并行处理

云计算与大规模数据并行处理技术;主要内容;第一部分云计算技术;云计算技术简介;云计算的主要特点;云计算的分类;云计算硬件平台 ;云计算的分类;云计算的分类;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;Intel 微处理器每秒 1千8百亿次浮点运算！;巨型机：中国天河一号，2010年底世界TOP500强第1名每秒2千5百多万亿次浮点运算，近20年性能提高3千多倍;TOP500系统体系结构演化向量机=SMP =MPP=Cluster Cluster以高获得性、高可扩展性优势成为发展主流 ;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展现状与趋势;Google Cloud Infrastructure;;租用案例 2007年，美国纽约时报租用Amazon云计算平台，用于将1851-1922年纽约时报的1100万篇报刊文章转换为PDF文件,供读者上网免费访问。共租用了100个EC2节点，运行了24小时，处理了4TB的报刊原始扫描图像，生成了1.5TB的PDF文件。每节点每小时费用为10美分，整个计算任务仅花费了240美元(100节点 x 24小时 x $0.10)！如果用自己的服务器，将需要数月和多得多的费用！ ;Microsoft Cloud Services(Window Azure，私有云平台管理和服务软件);IBM 云计算方案(私有云计算平台管理和服务软件);其它国内外IT企业云计算研发除以上几家全球著名的IT企业外，其它著名IT企业如Cisco、HP、EMC、VMWare等，都在大力推进云计算技术和系统研发。国内诸多著名IT企业，如中国移动、中国电信、中国联通、阿里巴巴、腾讯、百度、万网、中兴通信、华为等，也大力推动云计算研发。;中国移动Big Cloud;大规模低成本数据中心的订制化硬件设计;云计算发展现状与趋势;云计算发展现状与趋势;云计算发展现状与趋势;云计算的关键技术;云计算的关键技术;云计算的关键技术;云计算的关键技术;云计算的关键技术;第二部分MapReduce大规模数据并行处理技术;大规模数据并行处理技术的重要性;大规模数据并行处理技术的重要性;大规模数据并行处理技术的重要性;Google大规模数据并行处理技术简介;什么是MapReduce？;典型的流式大数据处理问题的特征大量数据记录/元素进行重复处理对每个数据记录/元素作感兴趣的处理、获取感兴趣的中间结果信息排序和整理中间结果以利后续处理收集整理中间结果产生最终结果输出;MapReduce的基本设计思想;MapReduce的基本设计思想;Map和Reduce操作的抽象描述 MapReduce借鉴了函数式程序设计语言Lisp中的思想，定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现: map: (k1; v1) ? [(k2; v2)] 输入：键值对(k1; v1)表示的数据处理：文档数据记录(如文本文件中的行，或数据表格中的行)将以“键值对”形式传入map函数；map函数将处理这些键值对，并以另一种键值对形式输出处理的一组键值对中间结果[(k2; v2)] 输出：键值对[(k2; v2)]表示的一组中间数据;MapReduce的基本设计思想;MapReduce的基本设计思想;MapReduce的基本设计思想;MapReduce并行处理示例;MapReduce并行处理示例;Barrier;MapReduce并行处理示例;MapReduce并行处理示例;提供统一的计算框架;提供统一的计算框架;MapReduce的主要设计思想与特点;MapReduce的主要设计思想与特点; 把计算向数据迁移 Moving processing to the data 传统高性能计算系统通常有很多处理器节点与一些外存储器节点相连，如用区域存储网络(SAN,Storage Area Network)连接的磁盘阵列，因此，大规模数据处理时外存文件数据I/O访问会成为一个制约系统性能的瓶颈。为了减少大规模数据并行计算系统中的数据通信开销，代之以把数据传送到处理节点(数据向处理器或代码迁移)，应当考虑将处理向数据靠拢和迁移。 MapReduce采用了数据/代码互定位的技术方法，计算节点将首先将尽量负责计算其本地存储的数据,以发挥数据本地化特点(locality),仅当节点无法处理本地数据时，再采用就近原则寻找其它可用计算节点，并把数据传送到该可用计算节点。; 顺序处理数据、避免随机访问数据 Process data sequential