Hadoop Balancer原理分析.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HadoopBalancer原理分析概要1

Hadoop Balancer详解 康承昆 2012223040060 基本概念 “过载节点”是指存储使用率大于“平均存储使用率+允许偏差”的节点; “负载节点”是指存储使用率小于“平均存储使用率-允许偏差”的节点。 存储使用率表示一个数据节点上已用空间占可用空间的百分比; 可用空间指的是分配给HDFS可使用的空间,并非是节点所在机器的全部硬盘空间。 为何需要Balancer? 1、异构机器 磁盘容量不一样,可能存在部分DataNode磁盘使用较高,而部分较低 2、新增机器 新增机器机器后,只有新写的数据可能到新的机器中,老数据不会自动迁移 3、固定的DataNode上上传数据 HDFS上传策略中,如果上传机器为DataNode,则默认的第一个备份会放在本机上 Balancer的设计 单独作为一个daemon运行 避开和主节点放在一台机器运行 运行达到平衡后,daemon会自动退出,因此需要定期启动,平衡集群数据 Balancer原理 Balancer根据用户设置的thld值,将DataNode利用率分为四种,如下图: 其中: avgUtilization= totalUsedSpace/totalCapacity*100 Balancer处理最上面和最下面的两个区域。对于avgUtilization-thld ~ avgUtilization+thld间的,认为已经是平衡的。 Thld可以在启动时,通过-thresld参数设置,默认为10. Balancer移动原则 分为Source和Target Source = {overUtilizedDatanodes,aboveAvgUtilizedDatanodes} Target = {belowAvgUtilizedDatanodes, underUtilizedDatanodes} 将Source对应的DataNode中的数据移动到Target对应的DataNode中 选择数据移动的源节点和目的节点的依据 对于负载节点,依据以下条件随机选取选取作为其source,条件优先级自上而下递减 同一机架上的过载节点 同一机架上的高于平均使用率的节点 其他机架上的过载节点 其他机架上的高于平均使用率的节 对于过载节点,依据以下条件随机选取选取作为其destination,条件优先级自上而下递减 同一机架上的负载节点 同一机架上的低于平均使用率的节点 其他机架上的负载节点 其他机架上的低于平均使用率的节点 Source Target匹配原则 首先按照同Rack进行DN匹配 1、匹配over区和under区 overUtilizedDatanodes underUtilizedDatanodes source target Pairsource,target Source { NodeTask { target } } for source in overUtilizedDataNodes choose target sameRack in underUtilizedDatanodes over above below under Source Target匹配原则 首先按照同Rack进行DN匹配 2、匹配over区和below区 overUtilizedDatanodes belowAvgUtilizedDatanodes source target for source in overUtilizedDataNodes choose target sameRack in belowAvgUtilizedDatanodes Pairsource,target Source { NodeTask { target } } over above under below Source Target匹配原则 首先按照同Rack进行DN匹配 3、under区有节点(还没有和above区匹配过) aboveAvgUtilizedDatanodes underUtilizedDatanodes source target for target in underUtilizedDatanodes choose source sameRack in aboveAvgUtilizedDatanodes Pairsource,target Source { NodeTask { target } } above over below under Source Target匹配原则 然后按照异Rack( off-rack )进行DN匹配 1、匹配over区和under区 o

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档