- 1、本文档共20页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HadoopBalancer原理分析概要1
Hadoop Balancer详解
康承昆
2012223040060
基本概念
“过载节点”是指存储使用率大于“平均存储使用率+允许偏差”的节点;
“负载节点”是指存储使用率小于“平均存储使用率-允许偏差”的节点。
存储使用率表示一个数据节点上已用空间占可用空间的百分比;
可用空间指的是分配给HDFS可使用的空间,并非是节点所在机器的全部硬盘空间。
为何需要Balancer?
1、异构机器
磁盘容量不一样,可能存在部分DataNode磁盘使用较高,而部分较低
2、新增机器
新增机器机器后,只有新写的数据可能到新的机器中,老数据不会自动迁移
3、固定的DataNode上上传数据
HDFS上传策略中,如果上传机器为DataNode,则默认的第一个备份会放在本机上
Balancer的设计
单独作为一个daemon运行
避开和主节点放在一台机器运行
运行达到平衡后,daemon会自动退出,因此需要定期启动,平衡集群数据
Balancer原理
Balancer根据用户设置的thld值,将DataNode利用率分为四种,如下图:
其中: avgUtilization= totalUsedSpace/totalCapacity*100
Balancer处理最上面和最下面的两个区域。对于avgUtilization-thld ~ avgUtilization+thld间的,认为已经是平衡的。
Thld可以在启动时,通过-thresld参数设置,默认为10.
Balancer移动原则
分为Source和Target
Source = {overUtilizedDatanodes,aboveAvgUtilizedDatanodes}
Target = {belowAvgUtilizedDatanodes, underUtilizedDatanodes}
将Source对应的DataNode中的数据移动到Target对应的DataNode中
选择数据移动的源节点和目的节点的依据
对于负载节点,依据以下条件随机选取选取作为其source,条件优先级自上而下递减
同一机架上的过载节点
同一机架上的高于平均使用率的节点
其他机架上的过载节点
其他机架上的高于平均使用率的节
对于过载节点,依据以下条件随机选取选取作为其destination,条件优先级自上而下递减
同一机架上的负载节点
同一机架上的低于平均使用率的节点
其他机架上的负载节点
其他机架上的低于平均使用率的节点
Source Target匹配原则
首先按照同Rack进行DN匹配
1、匹配over区和under区
overUtilizedDatanodes
underUtilizedDatanodes
source
target
Pairsource,target
Source {
NodeTask {
target
}
}
for source in overUtilizedDataNodes
choose target sameRack in underUtilizedDatanodes
over
above
below
under
Source Target匹配原则
首先按照同Rack进行DN匹配
2、匹配over区和below区
overUtilizedDatanodes
belowAvgUtilizedDatanodes
source
target
for source in overUtilizedDataNodes
choose target sameRack in belowAvgUtilizedDatanodes
Pairsource,target
Source {
NodeTask {
target
}
}
over
above
under
below
Source Target匹配原则
首先按照同Rack进行DN匹配
3、under区有节点(还没有和above区匹配过)
aboveAvgUtilizedDatanodes
underUtilizedDatanodes
source
target
for target in underUtilizedDatanodes
choose source sameRack in aboveAvgUtilizedDatanodes
Pairsource,target
Source {
NodeTask {
target
}
}
above
over
below
under
Source Target匹配原则
然后按照异Rack( off-rack )进行DN匹配
1、匹配over区和under区
o
您可能关注的文档
最近下载
- 声控灯的安装与调试工作页.doc VIP
- 2024年全国统一高考化学试卷(新课标)(含解析版).docx
- 2024春期国开电大《应用写作(汉语)》形考任务1-6参考答案.doc
- 佳能PowerShot使用手册SX70HS说明书.pdf
- 重大社2024初中信息科技1教材解读-七年级上册第一单元(吴跃进).pptx
- 谦敬辞训练题(答案).doc
- 《等腰三角形的判定》PPT课件.pptx
- 原发性肝癌诊疗指南(2024年版)内科及系统治疗解读.pptx
- 线性多智能体系统的自适应动态事件触发一致性Adaptive Dynamic Event-Triggered Consensus of Linear Multi-Agent Systems-来源:理论数学(第2021011期)-汉斯出版社.pdf VIP
- HG_T 4580-2013 农业用硝酸钙.docx
文档评论(0)