HDFS+MapReduce+Hive+HBase快速入门.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HDFSMapReduceHiveHBase快速入门

1.前言本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。2.Hadoop家族截止2009-8-19日,整个Hadoop家族由以下几个子项目组成:成员名用途Hadoop CommonHadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。AvroAvro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。ChukwaChukwa是基于Hadoop的大集群监控系统,由yahoo贡献。HBase基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。HDFS分布式文件系统Hivehive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据 的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。MapReduce实现了MapReduce编程框架PigPig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。ZooKeeperZookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。3.演练环境3.1.?操作系统SuSE10,Linux2.6.16,32位版本。3.2.?HadoopHive通过SVN直接从网上下载原代码,其它采用hadoop-0.20.0.tar.gz二进制安装包,所以只需要编译Hive。另外,请注意不要下载2009-8-19号的Hive,2009-8-19提交的Hive版本在hadoop-0.20.0.tar.gz上编译通不过,原因是:Hive源代码根目录\ql\src\java\org\apache\hadoop\hive\ql\exec\FileSinkOperator.java文件中多了一行:import press.LzoCodec;而应当下载2009-8-4号和2009-8-19之间的版本,或2009-8-19之后的版本。3.3.?Hive在0.20.0版本的Hadoop二进制安装包中,并没有集成Hive,所以Hive需要自己编译,编译时需要使用到ant和ivy两个工具,而且依赖于Hadoop。3.4.?Java运行Hadoop和编译Hive,都需要使用到Java,所以需要第一个安装的是Java。3.5.?机器演练时,在3台机器上搭建Hadoop集群,假设这3台机器如下表所示:机器名机器IP用途Hadoop-A用作MasterHadoop-B用作SlaveHadoop-C用作Slave注意事项:机器名中不能包括下划线“_”,但可以包括横线。另可使用不带参数的hostname来查看机器名,修改机器名方法为:hostname?机器名,如:hostname Hadoop-A。 另外,集群内所有的机器登录用户名和密码要保 持相同。3.6.?安装列表安装说明Java 1.6A、B和C三台机器都需要安装Hadoop 0.20.0A、B和C三台机器都需要安装Hive只需要在B和C两台机器上安装,也就是master机器不需要安装ant只需要在B和C两台机器上安装,也就是master机器不需要安装ivy只需要在B和C两台机器上安装,也就是master机器不需要安装注意事项:为求简单所有操作均以root用户完成,实际上可以使用非root用户,但环境变量就不能直接在/etc/profile文件中添加了。4.配置ssh2和修改/etc/hosts需要在所有机器上配置ssh2和修改/etc/hosts。在/etc/hosts文件中增加如下三行:Hadoop-AHadoop-BHadoop-C并根据上述关系,使用hostname命令修改三台机器的机器名。4.1.?配置ssh21)?mkdir ~/.ssh2??#?如果~/.ssh2目录已经存在,则这一步可以跳过2)?cd ~/.ssh23)?ssh-keygen2 -t rsa4)?echo IdKey id_rsa_2048_a identificati

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档