Chapter2-厦门大学-林子雨-大数据技术原理与应用-第二章-大数据处理架构Hadoop(2016春季学期授课版本)解析.ppt

下载文档 降价啦

34
0
约1.22万字
约 48页
2017-01-10 发布于湖北
举报
版权申诉
保障服务

Chapter2-厦门大学-林子雨-大数据技术原理与应用-第二章-大数据处理架构Hadoop(2016春季学期授课版本)解析.ppt

1、本文档共48页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chapter2-厦门大学-林子雨-大数据技术原理与应用-第二章-大数据处理架构Hadoop(2016春季学期授课版本)解析

伪分布式安装配置实验步骤：修改配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml 初始化文件系统hadoop namenode -format 启动所有进程start-all.sh 访问web界面，查看Hadoop信息运行实例伪分布式安装配置修改配置文件?core-site.xml? configuration property namehadoop.tmp.dir/name valuefile:/usr/local/hadoop/tmp/value descriptionAbase for other temporary directories./description /property property namefs.defaultFS/name valuehdfs://localhost:9000/value /property /configuration name为fs.defaultFS的值，表示hdfs路径的逻辑名称 hadoop.tmp.dir表示存放临时数据的目录，即包括NameNode的数据，也包括DataNode的数据。该路径任意指定，只要实际存在该文件夹即可? 伪分布式安装配置修改配置文件?hdfs-site.xml configuration property namedfs.replication/name value1/value /property property name.dir/name valuefile:/usr/local/hadoop/tmp/dfs/name/value /property property namedfs.datanode.data.dir/name valuefile:/usr/local/hadoop/tmp/dfs/data/value /property/configuration dfs.replication表示副本的数量，伪分布式要设置为1 .dir表示本地磁盘目录，是存储fsimage文件的地方 dfs.datanode.data.dir表示本地磁盘目录，HDFS数据存放block的地方伪分布式安装配置关于三种Shell命令方式的区别： 1. hadoop fs 2. hadoop dfs 3. hdfs dfs hadoop fs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统 hadoop dfs只能适用于HDFS文件系统 hdfs dfs跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统 2.4.1 集群节点类型 2.4.2 集群规模 2.4.3 集群硬件配置 2.4.4 集群网络拓扑 2.4.5 集群的建立与安装 2.4.6 集群基准测试 2.4.7 在云计算环境中使用Hadoop 2.4 Hadoop集群的部署与使用 2.4.1 Hadoop集群中有哪些节点类型 Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce MapReduce的作业主要包括：（1）从磁盘或从网络读取数据，即IO密集工作；（2）计算数据，即CPU密集工作 Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型一个基本的Hadoop集群中的节点主要有 NameNode：负责协调集群中的数据存储 DataNode：存储被拆分的数据块 JobTracker：协调数据计算任务 TaskTracker：负责执行由JobTracker指派的任务 SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息 2.4.2 集群硬件配置在集群中，大部分的机器设备是作为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件规格可以采用以下方案： 4个磁盘驱动器（单盘1-2T），支持JBOD(Just a Bunch Of Disks，磁盘簇) 2个4核CPU,至少2-2.5GHz 16-24GB内存千兆以太网 NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务，因此需要更多的RAM，与集群中的数据块数量相对应，并且需要优化RAM的内存通道带宽，采用双通道或三通道以上内存。硬件规格可以采用以下方案： 8