- 1、本文档共168页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算技术及大规模数据并行处理
云 计 算 与大规模数据并行处理技术;主 要 内 容;第 一 部 分云计算技术;云计算技术简介;云计算的主要特点;云计算的分类;云计算硬件平台
;云计算的分类;云计算的分类;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;Intel
微处理器
每秒
1千8百亿次
浮点运算!;巨型机:中国天河一号,2010年底世界TOP500强第1名每秒2千5百多万亿次浮点运算,近20年性能提高3千多倍;TOP500系统
体系结构演化
向量机=SMP
=MPP=Cluster
Cluster以
高获得性、
高可扩展性优势
成为发展主流
;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展背景;云计算发展现状与趋势;Google Cloud Infrastructure;;租用案例
2007年,美国纽约时报租用Amazon云计算平台,用于将1851-1922年纽约时报的1100万篇报刊文章转换为PDF文件,供读者上网免费访问。
共租用了100个EC2节点,运行了24小时,处理了4TB的报刊原始扫描图像,生成了1.5TB的PDF文件。
每节点每小时费用为10美分,整个计算任务仅花费了240美元(100节点 x 24小时 x $0.10)!
如果用自己的服务器,将需要数月和多得多的费用!
;Microsoft Cloud Services(Window Azure,私有云平台管理和服务软件);IBM 云计算方案(私有云计算平台管理和服务软件);其它国内外IT企业云计算研发
除以上几家全球著名的IT企业外,其它著名IT企业如Cisco、HP、EMC、VMWare等,都在大力推进云计算技术和系统研发。
国内诸多著名IT企业,如中国移动、中国电信、中国联通、阿里巴巴、腾讯、百度、万网、中兴通信、华为等,也大力推动云计算研发。;中国移动Big Cloud;大规模低成本数据中心的订制化硬件设计;云计算发展现状与趋势;云计算发展现状与趋势;云计算发展现状与趋势;云计算的关键技术;云计算的关键技术;云计算的关键技术;云计算的关键技术;云计算的关键技术;第 二 部 分MapReduce大规模数据并行处理技术;大规模数据并行处理技术的重要性;大规模数据并行处理技术的重要性;大规模数据并行处理技术的重要性;Google大规模数据并行处理技术简介;什么是MapReduce?;典型的流式大数据处理问题的特征
大量数据记录/元素进行重复处理
对每个数据记录/元素作感兴趣的处理、获取感兴趣的中间结果信息
排序和整理中间结果以利后续处理
收集整理中间结果
产生最终结果输出;MapReduce的基本设计思想;MapReduce的基本设计思想;Map和Reduce操作的抽象描述
MapReduce借鉴了函数式程序设计语言Lisp中的思想,定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:
map: (k1; v1) ? [(k2; v2)]
输入:键值对(k1; v1)表示的数据
处理:文档数据记录(如文本文件中的行,或数据表格中的行)将以“键值对”形式传入map函数;map函数将处理这些键值对,并以另一种键值对形式输出处理的一组键值对中间结果[(k2; v2)]
输出:键值对[(k2; v2)]表示的一组中间数据;MapReduce的基本设计思想;MapReduce的基本设计思想;MapReduce的基本设计思想;MapReduce并行处理示例;MapReduce并行处理示例;Barrier;MapReduce并行处理示例;MapReduce并行处理示例;提供统一的计算框架;提供统一的计算框架;MapReduce的主要设计思想与特点;MapReduce的主要设计思想与特点; 把计算向数据迁移
Moving processing to the data
传统高性能计算系统通常有很多处理器节点与一些外存储器节点相连,如用区域存储网络(SAN,Storage Area Network)连接的磁盘阵列,因此,大规模数据处理时外存文件数据I/O访问会成为一个制约系统性能的瓶颈。
为了减少大规模数据并行计算系统中的数据通信开销,代之以把数据传送到处理节点(数据向处理器或代码迁移),应当考虑将处理向数据靠拢和迁移。
MapReduce采用了数据/代码互定位的技术方法,计算节点将首先将尽量负责计算其本地存储的数据,以发挥数据本地化特点(locality),仅当节点无法处理本地数据时,再采用就近原则寻找其它可用计算节点,并把数据传送到该可用计算节点。; 顺序处理数据、避免随机访问数据
Process data sequential
文档评论(0)