07Hadoop集群伪分布式模式的实现详解.pdfVIP

下载本文档

12
0
约1.32万字
约 13页
2015-08-31 发布于重庆
举报
版权申诉

07Hadoop集群伪分布式模式的实现详解.pdf

1、本文档共13页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

07Hadoop集群伪分布式模式的实现详解.pdf

Hadoop 集群伪分布式模式的实现详解 1、Hadoop 依赖软件 Hadoop 基于Java 语言开发，因此其运行严重依赖于JDK(Java Development Kit)，并且 Hadoop 的许多功能依赖于Java 6 及以后的版本才提供的特性。Hadoop 可以良好地运行于经过测试的各JDK，如Sun JDK、OpenJDK、Oracle JRockit、IBM JDK 各自实现的某些版本。但迄今为止，HotSpot JVM 仍是性能最好且与Hadoop 搭配运行最稳定的实现。 /hadoop/HadoopJavaVersions 页面给出了Hadoop 目前几大著名企业实现的Hadoop 集群中所使用的JDK 版本，Hortonworks 已经为JDK 1.6.0_31 在 RHEL5/CentOS5、RHEL6/CentOS6、SLES11 运行Hadoop、HBase、Pig, Hive、HCatalog、Oozie、 Sqoop 等进行了认证。建议参考它们的测试结果进行选择。在选择安装版本，Sun JDK 有几种不同格式的安装包，其使用及功能上并没有区别；但如果在安装Hadoop 使用CDH 的RPM 格式的包的话，它们依赖于RPM 格式的JDK，不过，ASF 提供的RPM 包并没有定义任何外在的依赖关系，因此，其可以使用基于任何方式安装配置的JDK，但这也意味着得手动解决依赖关系。无论如何，一个生产环境的Hadoop 集群应该运行在64 位的操作系统上，JDK 等也要使用相应的64 位版本，否则，单JVM 进程将无法使用大于2GB 以上的内存。除了JDK 之外，Hadoop 集群的正常运行还可能根据实际环境依赖于其它的一些软件以实现集群的维护、监控及管理等。这些软件诸如cron、ntp、ssh、postfix/sendmail 及rsync 等。cron 通常用于在Hadoop 集群中过期的临时文件、归档压缩日志等定期任务的执行；ntp 则用于为集群的各节点实现时间同步；ssh 并非是必须的，但在MapReduce 或HDFS 的master 节点上一次性启动整个集群时通过要用到ssh 服务；postfix/sendmail 则用于将cron 的执行结果通知给管理员；rsync 可用于实现配置文件的同步等。 2、Hadoop 的运行环境 2.1 各节点的主机名 Hadoop 在基于主机引用各节点时会有一些独特的方式，这已经让很多的Hadoop 管理员为此头疼不已。实际使用中，应该避免集群中的各节点尤其是从节点(DataNode和TaskTracker) 使用localhost 作为本机的主机名称，除非是在伪分布式环境中。 2.2 用户、组及目录前文已经说明，一个完整的Hadoop 集群包含了MapReduce 集群和HDFS 集群，MapReduce 集群包含JobTracker 和TaskTracker 两类进程和许多按需启动的任务类进程(如map 任务)， HDFS 集群包含NameNode、SecondaryNameNode 和DataNode 三类进程。安全起见，应该以普通用户的身份启动这些进程，并且MapReduce 集群的进程与HDFS 集群的进程还应该使用不同的用户，比如分别使用mapred 和hdfs 用户。使用CDH 的RPM 包安装Hadoop 时，这些用户都会被自动创建，如果基于tar 包安装，则需要手动创建这些用户。 Hadoop 的每一个进程都会访问系统的各类资源，然而，Linux 系统通过PAM 限定了用户的资源访问能力，如可打开的文件数(默认为1024 个)及可运行的进程数等，这此默认配置在一个略具规模的Hadoop 集群中均会带来问题。因此，需要为mapred 和hdfs 用户修改这些限制，这可以在/etc/security/limits.conf 中进行。修改结果如下。 # Allow users hdfs, mapred, and hbase to open 32k files. The # type - means both soft and hard limits. # # See man 5 limits.conf for details. # user type resource value hdfs - nofile 32768 mapred - nofile 32768 3、Hadoop 的分布式模型 Hadoop 通常有三种运行模式：本地(独立)模式、伪分布式(Pseud