- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HDFS用户指南
(HDFS Users Guide)
目录HDFS架构指南详细途述了HDFS。这个用户指南主要针对活动和管理的HDFS集群用户。HDFS架构图描述了NameNode、DataNode和客户端基本的相互作用。客户端通过NameNode取得文件的元数据和修改(状态或记录)然后实际执行I/O操作直接使用DataNode。
以下列出一些可能是许多用户感兴趣的特性。
Hadoop包括HDFS是比较合适的使用(低要求)硬件支撑的分布式存储和分布式处理系统。它允许故障、可升级并非常易于扩展。MapReduce(映射化简),众所周知的简单并适用的大型分布式应用,是Hadoop的主要部分。
HDFS在默认配置上拥有高可配性较好的适用于多数设备。多数情况下只需要为大型集群设定配置。
Hadoop由JAVA语言编写而成并支持所有主流平台。
Hadoop支持“类Shell”命令与HDFS直接交互。
NameNode和DataNode构建了Web服务为查看集群的状态提供便利。
新的特性和更改都有规律地遵行HDFS。以下是HDFS有用特性列表:
文件权限和安全。
机架感知(Rack awareness):在安排任务和分配存储空间时考虑到节点的物理位置。
安全模式(Safemode):运维的管理模式。
文件诊断(FSCK):文件系统的诊断功能,用来查找丢失的文件或块。
重新权衡(Rebalancer):用以平衡数据不均衡分布在DataNode时使用的工具。
升级和回滚:软件升级后因为某些未知的问题有可能需要回滚到HDFS在升级之前的状态。
Secondary NameNode【不推荐的】:定期生成Namespace的Checkpoint,并帮助NameNode上的包函HDFS修改日志的文件维持在指定大小以内。因为已经不推荐使用了,可用Checkpoint node替换。
Checkpoint node:定期生成Namespace的Checkpoint,并帮助降低NameNode上的包函HDFS修改记录的日志文件的大小。填补替换先前的Secondary NameNode角色。NameNode允许多个Checkpoint节点同时存在,但必须保证系统没有注册Backup Node。
Backup Node:Checkpoint节点的扩展。除了创建Checkpoint它同样从NameNode接收一个Edits流,并在自己的内存中维持一个Namespace的复本,它总是在同步活动的NameNode的Namespace的状态。
前提
以下文档描述了如何安装并创建一个Hadoop集群:
单一节点安装提供给处女用户。
集群安装提供给大型分布式集群。
余下的文档假设用户能创建并运行至少拥有一个DataNode的HDFS。就本文档的目的,无论在NameNode还是DataNode都能运行在同一物理机器上。
Web界面
NameNode和DataNode各自运行一个内部Web服务为了显示集群的当前基本状态。使用默认配置,名称空间的首页是http://名称空间节点:50070/。它列出集群中的DataNode以及集群的基本统计数据。Web界面同样能用于通过浏览器来浏览文件系统(使用NameNode首页的“Browse the file system”链接)。
Shell命令
Hadoop包括若干类Shell命令可用于HDFS文件和其它被Hadoop支持的文件系统的交互。运行 “bin/hdfs dfs –help”显示Hadoop shell支持的各种操作(命令),此外,运行“bin/hdfs dfs –help 命令名称”显示命令的更多详细帮助。这些命令支持大部分常规文件系统操作,如复制文件,更改文件权限等等,其同样也支持一些HDFS特定操作,如更改文件的备份参数。文件系统命令行指南查看更多信息。
分布式文件系统管理命令(DFSAdmin Command)
“bin/hadoop dfsadmin”命令支持一些HDFS管理相关的操作。“bin/hadoop dfsadmin -help”命令列出所有当前支持的操作,例如:
-report:报告HDFS的基本统计数据。许多信息同样存在于NameNode的首页上。
-safemode:虽然通常不是必须的,但是管理员能手动进入或离开安全模式。
-finalizeUpgrade:移除集群最后一次升级前的备份。
-refreshNodes:更新允许连接到NameNode的主机集合。重新读取配置文件更新dfs.hosts和dfs.host.exclude的值,并读取这些文件中的全部主机名称。每一个没被定义在dfs.hosts但是定义在dfs.hosts.exclude的对象被退役。每一个定义在dfs.hosts并同时定
文档评论(0)