- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce详解
MapReduce 简介
在Hadoop MapReduce 中,框架会确保reduce 收到的输入数据是根据key 排序过的。数据
从Mapper 输出到Reducer 接收,是一个很复杂的过程,框架处理了所有问题,并提供了很
多配置项及扩展点。一个MapReduce 的大致数据流如下图:
更详细的MapReduce 介绍参考Hadoop MapReduce 原理与实例
Mapper 的输出排序、然后传送到Reducer 的过程,称为shuffle。本文详细地解析shuffle
过程,深入理解这个过程对于MapReduce 调优至关重要,某种程度上说,shuffle 过程是
MapReduce 的核心内容。
Mapper 端
当map 函数通过context.write()开始输出数据时,不是单纯地将数据写入到磁盘。为了性
能,map 输出的数据会写入到缓冲区,并进行预排序的一些工作,整个过程如下图:
环形Buffer 数据结构
每一个map 任务有一个环形Buffer,map 将输出写入到这个Buffer。环形Buffer 是内存中
的一种首尾相连的数据结构,专门用来存储Key-Value 格式的数据:
Hadoop 中,环形缓冲其实就是一个字节数组:
[AppleScript] 纯文本查看复制代码
?
1 // MapTask.java
2 private byte[] kvbuffer; // main output buffer
3 kvbuffer = new byte[maxMemUsage - recordCapacity];
kvbuffer 包含数据区和索引区,这两个区是相邻不重叠的区域,用一个分界点来标识。分界
点不是永恒不变的,每次Spill 之后都会更新一次。初始分界点为0,数据存储方向为向上
增长,索引存储方向向下:
bufferindex 一直往上增长,例如最初为0,写入一个int 类型的key 之后变为4,写入一个
int 类型的value 之后变成8。
索引是对key-value 在kvbuffer 中的索引,是个四元组,占用四个Int 长度,包括:
value 的起始位置
key 的起始位置
partition 值
value 的长度
[AppleScript] 纯文本查看复制代码
?
01 private static final int VALSTART = 0; // val offset in acct
02 private static final int KEYSTART = 1; // key offset in acct
03 private static final int PARTITION = 2; // partition offset in acct
04 private static final int VALLEN = 3; // length of value
05 private static final int NMETA = 4; // num meta ints
06 private static final int METASIZE = NMETA * 4; // size in bytes
07 // write accounting info
08 kvmeta.put(kvindex + PARTITION, partition);
09 kvmeta.put(kvindex + KEYSTART, keystart);
10 kvmeta.put(kvindex + VALSTART, valstart);
11 kvmeta.put(kvindex + VALLEN, distanceTo(valstart, valend));
kvmeta 的存放指针kvindex 每次都是向下跳四个“格子”,然后再向上一个格子一个格子地
填充四元组的数据。比如kvindex 初始位置是-4,当第一个key-value 写完之后,(kvindex+0)
的位置存放value 的起始位置、(kvindex+1)的位置存放key 的起始位置、(kvindex+2)的位
置存放partition 的值、(kvindex+3)的位置存放value 的长度,然后kvindex 跳到-8 位置。
缓冲区的大小默认为100M,但是可以通过mapreduce.task.io.sort.mb 这个属性来配置
您可能关注的文档
- LTE下载双流占比及速率提升总结.pdf
- LSI_SCSI_RAID卡使用.pdf
- LTE信令与协议.pdf
- LS低压产品快速选型手册.pdf
- LSI系列芯片Raid卡配置、管理手册.pdf
- LTE网络天馈系统性能分析.pdf
- LVQB电流互感器.pdf
- LTE新技术培训-室内分布.pdf
- LTE组网规划N.pdf
- LTE典型场景建设方案.pdf
- 2025年新材料研发与产业化投资可行性研究报告.docx
- 快消品企业2025年渠道下沉中的产品生命周期管理策略报告.docx
- 2025年体育培训行业市场调研报告:竞争格局与市场前景分析.docx
- 2025年体育培训行业市场调研报告:竞争格局与市场机遇.docx
- 城市公共卫生设施2025年建设与社区和谐稳定发展模式创新报告.docx
- 2025年中考英语真题分项精练(一)语法精练(含解析).doc.docx
- 探究2025年合规科技对律师事务所法律服务效率提升的影响报告.docx
- 特斯拉2025年新能源汽车市场品牌影响力及传播策略分析报告.docx
- 2025年文旅企业跨界合作案例深度研究与资源整合策略推荐报告.docx
- 2025年美妆电商品牌连锁店市场细分与竞争策略分析报告.docx
最近下载
- 辩论口才训练题目及答案.docx VIP
- 2023上半年北京大兴区人力资源和社会保障局招聘临时辅助用工9人笔试备考试题及答案解析.docx VIP
- 2025北京市大兴区人力资源和社会保障局招聘临时辅助用工4人笔试模拟试题及答案解析.docx VIP
- 2025北京市大兴区人力资源和社会保障局招聘临时辅助用工4人笔试备考试题及答案解析.docx VIP
- 金融风险控制模型建立与优化路径.docx VIP
- 2025年律师事务所行业市场分析报告.docx
- 多学科围手术期气道管理专家共识解读.ppt
- 2024北京西城区四年级(下)期末英语试题及答案.pdf VIP
- 2024北京西城区四年级(下)期末数学试题及答案.pdf VIP
- 2024北京西城区四年级(下)期末语文试题及答案.docx VIP
文档评论(0)