Hadoop实战-陆嘉恒-笔记Hadoop实战-陆嘉恒-笔记.docx

Hadoop实战-陆嘉恒-笔记Hadoop实战-陆嘉恒-笔记.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop实战-陆嘉恒-笔记Hadoop实战-陆嘉恒-笔记

1, hd的优势1,Hadoop项目和结构hd的核心是mapReduce和HDFScore/common提供了一些基本的API和服务,包括FileSystem、RPC等。(2)Avro用于数据序列化(3)MapReduce是一种编程模型,用于大于1TB的数据集的并行运算。(4)HDFS特点:高容错、高吞吐量(HDFS适合批量处理,而不适合用户交互处理的快速反应)、基于流访问(5)Chukwa适合分析零碎小文件。(6)Hive(7)HBase(8)Pig支持大规模并行数据分析,提供了叫Pig Latin的语言使之更加容易编程。(9)Zookeeper是高有效和可靠的协同工作系统,Zookeeper能够用来leader选举,配置信息维护等,在一个分布式的环境中,需要一个Master实例或存储一些配置信息,确保文件写入的一致性等.1.3 Hadoop的体系结构1.3.1 HDFS体系结构HDFS采用主从(Master/Slave)结构,NameNode作为主服务器管理文件系统的命名空间和客户端对文件的访问操作,也负责数据块到具体DataNode的映射。DataNode实际存储数据。1.3.2 MapReduce的体系结构MapReduce由运行在主节点上的JobTracker和运行在集群从节点上的TaskTraker组成。jobTraker调度任务和监控任务。1.4 Hadoop与分布式开发Hd实现了分布式文件系统和部分分布式数据库的功能。MR的原理是:利用一个输入的key/value对集合产生一个输出的key/value对集合。数据分步存储HDFS把文件割成了block,存储于不同的DataNode上,还可以通过复制block来达到容灾并行式计算本地计算4. 任务粒度把大数据切成小数据时,小数据等于默认block大小。如果有M个小数据等待处理就启动M个map任务,M个map任务分布于N台计算机并行运行。Reduce任务的数量R由用户指定。数据分割(Partition)数据合并(Combine)Reduce8. 任务管道1.5 Hd计算模型-mapReduce1.6 Hd的数据管理HDFS分布式文件系统,HBase分布式数据库,Hive数据仓库。1.6.1 HDFS的数据管理1,文件写入和读取都是Client先向NameNode发起请求,再在DataNode里操作数据。2,Block的复制:如果NameNode发现部分文件的Block不符合最小复制数这一要求或部分DataNode失效;通知DataNode开始相互复制block2.1 block的放置:block有三份:一份在NameNode指定的DataNode上,一份和指定的DataNode不同的机器上,一份在同一个Rack上2.2心跳检测2.3 数据复制2.4 只有把数据都备份了三份成功,客户端才会开始写入下一个block2.5安全模式,就是不允许修改和删除数据。1.6.2 HBase的数据管理/link?url=F95QnJ0hxY_RnT8JDDgPzCkc0BG28omSmHdXTboJBYkNGsZEIYFDo9ibdJRNUQF1oml3jR96LMVJe7qfwe_Eo5fx3arcST4tIxGbUV_JaO31,HBase特点:2,关于列族:列族必须作为表模式定义的一部分预先给出。每个列族可以有多个列成员如:course:math, course是列族名,而math是列名。新的列成员可以动态加入。HBase把同一列族里的数据存储在同一目录下,有几个文件保存。3,逻辑存储结构是《网摘-笔记》table{????//?...????aaaaa?:?{?//一行??????A:foo?:?{?//一列??????????15?:?y,?//一个版本??????????4?:?m????????},??????A:bar?:?{?//一列??????????15?:?d,????????},??????B:?:?{?//一列??????????6?:?w??????????3?:?o??????????1?:?w????????}????},????//?...??}??查询aaaaa/A:foo/4,返回的结果就是m,也就是可以?(row:string, column:string, time:int64)→string?来表示一条键值对记录。1,Hbase的写操作是锁行的。2,HBase在分布式集群上依靠HRegion,HMaster,HClient管理。主服务器作为HBase的中心,管理整个集群中的所有域,监控每台域服务器的运行情况等;域服务器接收来自服务器的分配域,处理客户端的域读写请求并回写映射文件等;客户端主要用来查找用户域所在的域服务器地址信息。3,主服务

文档评论(0)

cduutang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档