云计算技术与大数据处理技术概要.ppt

  1. 1、本文档共197页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算技术与大数据处理技术概要

datanode daemon Linux file system … tasktracker slave node datanode daemon Linux file system … tasktracker slave node datanode daemon Linux file system … tasktracker slave node namenode namenode daemon job submission node jobtracker 数据存储与计算节点构架 对等于Google MapReduce 中的Master 对等于Google MapReduce 中的Worker Hadoop MapReduce程序执行过程 Hadoop MapReduce程序执行过程 HDFS基本构架 对等于GFS Master 对等于GFS ChunkServer 应用程序 HDFS客户端 文件名或数据块号 数据块号,数据块位置 HDFS NameNode DataNode 数据 DataNode 数据 DataNode 数据 HBase是什么? Google BigTable的一个开源实现 管理大规模的结构化和半结构化数据 提供基于列存储模式的大数据表管理能力 可存储管理数十亿以上的数据记录,每个记录可包含百万以上的数据列 HBase试图提供随机和实时的数据读写访问能力 HBase的基本构架 有一组RegionServer构成,分别存储逻辑大表中的部分数据 底层基于HDFS Map和Reduce操作的抽象描述 MapReduce借鉴了函数式程序设计语言Lisp中的思想,定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现: map: (k1; v1) ? [(k2; v2)] 输入:键值对(k1; v1)表示的数据 处理:文档数据记录(如文本文件中的行,或数据表格中的行)将以“键值对”形式传入map函数;map函数将处理这些键值对,并以另一种键值对形式输出处理的一组键值对中间结果[(k2; v2)] 输出:键值对[(k2; v2)]表示的一组中间数据 MapReduce的基本设计思想 MapReduce的基本设计思想 Map和Reduce操作的抽象描述 reduce: (k2; [v2]) ? [(k3; v3)] 输入: 由map输出的一组键值对[(k2; v2)] 将被进行合并处理将同样主键下的不同数值合并到一个列表[v2]中,故reduce的输入为(k2; [v2]) 处理:对传入的中间结果列表数据进行某种整理或进一步的处理,并产生最终的某种形式的结果输出[(k3; v3)] 。 输出:最终输出结果[(k3; v3)] MapReduce的基本设计思想 基于Map和Reduce的并行计算模型 海量数据存储 …… 数据划分 Map Map Map Map 初始kv 键值对 初始kv 键值对 初始kv 键值对 初始kv 键值对 中 间 结 果 (k1,val) (k2,val) (k3,val) (k1,val) (k3,val) (k2,val) (k3,val) (k1,val) (k2,val) (k3,val) Barrier:Aggregation and Shuffle Reduce Reduce Reduce (k1,values) (k2,values) (k3,values) 计算结果 (K1,val) (K2,val) (K3,val) MapReduce的基本设计思想 基于Map和Reduce的并行计算模型 各个map函数对所划分的数据并行处理,从不同的输入数据产生不同的中间结果输出 各个reduce也各自并行计算,各自负责处理不同的中间结果数据集合 进行reduce处理之前,必须等到所有的map函数做完,因此,在进入reduce前需要有一个同步障(barrier);这个阶段也负责对map的中间结果数据进行收集整理(aggregation shuffle)处理,以便reduce更有效地计算最终结果 最终汇总所有reduce的输出结果即可获得最终结果 MapReduce并行处理示例 文档词频统计WordCount 设有4组原始文本数据: Text 1: the weather is good Text 2: today is good Text 3: good weather is good Text 4: today has good weather 传统的串行处理方式(Java): String[] text = new String[] { “hello wor

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档