Hadoop-0200-HDFS+MapReduce+Hive+HBase十分钟快速入门.docVIP

下载本文档

9
0
约8.35千字
约 11页
2017-09-08 发布于江苏
举报
版权申诉

Hadoop-0200-HDFS+MapReduce+Hive+HBase十分钟快速入门.doc

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

HDFS+MapReduce+Hive+HBase十分钟快速入门易剑 2009-8-19 前言本文的目的是让一个从未接触Hadoop的人，在很短的时间内快速上手，掌握编译、安装和简单的使用。 Hadoop家族截止2009-8-19日，整个Hadoop家族由以下几个子项目组成：成员名用途 Hadoop Common Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。 Avro Avro是doug cutting主持的RPC项目，有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑。 Chukwa Chukwa是基于Hadoop的大集群监控系统，由yahoo贡献。 HBase 基于Hadoop Distributed File System，是一个开源的，基于列存储模型的分布式数据库。 HDFS 分布式文件系统 Hive hive类似CloudBase，也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。hive提供了一套QL的查询语言，以sql为基础，使用起来很方便。 MapReduce 实现了MapReduce编程框架 Pig Pig是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。 ZooKeeper Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。演练环境操作系统 SuSE10，Linux2.6.16，32位版本。 Hadoop Hive通过SVN直接从网上下载原代码，其它采用hadoop-0.20.0.tar.gz二进制安装包，所以只需要编译Hive。另外，请注意不要下载2009-8-19号的Hive，2009-8-19提交的Hive版本在hadoop-0.20.0.tar.gz上编译通不过，原因是： Hive源代码根目录\ql\src\java\org\apache\hadoop\hive\ql\exec\FileSinkOperator.java文件中多了一行： import press.LzoCodec; 而应当下载2009-8-4号和2009-8-19之间的版本，或2009-8-19之后的版本。 Hive 在0.20.0版本的Hadoop二进制安装包中，并没有集成Hive，所以Hive需要自己编译，编译时需要使用到ant和ivy两个工具，而且依赖于Hadoop。 Java 运行Hadoop和编译Hive，都需要使用到Java，所以需要第一个安装的是Java。机器演练时，在3台机器上搭建Hadoop集群，假设这3台机器如下表所示：机器名机器IP 用途 Hadoop-A 用作Master Hadoop-B 用作Slave Hadoop-C 用作Slave 注意事项：机器名中不能包括下划线“_”，但可以包括横线。另可使用不带参数的hostname来查看机器名，修改机器名方法为：hostname 机器名，如：hostname Hadoop-A。另外，集群内所有的机器登录用户名和密码要保持相同。安装列表安装说明 Java 1.6 A、B和C三台机器都需要安装 Hadoop 0.20.0 A、B和C三台机器都需要安装 Hive 不需要在B和C两台机器上安装，也就是Slave机器不需要安装 ant 不需要在B和C两台机器上安装，也就是Slave机器不需要安装 ivy 不需要在B和C两台机器上安装，也就是Slave机器不需要安装注意事项：为求简单所有操作均以root用户完成，实际上可以使用非root用户，但环境变量就不能直接在/etc/profile文件中添加了。安装路线配置ssh2和修改/etc/hosts 需要在所有机器上配置ssh2和修改/etc/hosts。配置ssh2 mkdir ~/.ssh2 # 如果~/.ssh2目录已经存在，则这一步可以跳过 cd ~/.ssh2 ssh-keygen2 -t rsa echo IdKey id_rsa_2048_a identif